平台与数据集

arXiv 2025

OctoNav 是一个面向多样导航任务的通用具身导航模型，能够在不同环境中处理复杂导航需求。通过大规模预训练与多模态融合，OctoNav 在复杂室内外场景中展现出稳健表现。

Ziqin Wang, Xiangyu Wang, Jinyu Chen, Ruipu Wu, Linjiang Huang, Yue Liao, Si Liu

ICLR 2025

该平台面向无人机视觉语言导航，弥合仿真与真实部署之间的差距，并提供真实场景与标准化评测指标，推动自主无人机系统研究。

Xiangyu Wang, Donglin Yang, Ziqin Wang, Hohin Kwan, Jinyu Chen, Wenjun Wu, Hongsheng Li, Yue Liao, Si Liu

CVPR 2025

VideoEspresso 是面向细粒度视频推理的大规模数据集，通过链式思维标注与核心帧选择方法增强视频理解和推理能力。

Songhao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu

CVPR 2025

LLaVA-ST 是专为细粒度时空理解设计的多模态大语言模型，能够精确理解视觉内容中的复杂空间与时间关系。

Hongyu Li, Jinyu Chen, Ziyu Wei, Shaofei Huang, Tianrui Hui, Jialin Gao, Xiaoming Wei, Si Liu

ICCV 2025

该方法将无人机视频转换为鸟瞰视角表示，以提升视频地理定位能力，并从空中视频中实现更准确的空间理解与定位。

Hao Ju, Shaofei Huang, Si Liu, Zhedong Zheng

ACM MM 2025

AeroDuo 面向无人机视觉语言导航，结合视觉感知与自然语言理解，实现更直观的无人机控制与导航。

Ruipu Wu, Yige Zhang, Jinyu Chen, Linjiang Huang, Shifeng Zhang, Xu Zhou, Liang Wang, Si Liu

NeurIPS 2025

RoboCerebra 是面向长程机器人操作任务的综合评测基准，提供标准化评测协议和多样场景，推动具身智能与机器人研究。

Songhao Han, Boxiang Qiu, Yue Liao, Siyuan Huang, Chen Gao, Shuicheng Yan, Si Liu

ACM MM demo 2025

AirStar 是一个可通过自然语言命令引导用户到达指定地点的交互式演示系统，展示视觉语言导航在真实场景中的应用。

Ziqin Wang, Jinyu Chen, Xiangyi Zheng, Qinan Liao, Linjiang Huang, Si Liu