发表论文

All Publications

2026

OctoNav: Towards Generalist Embodied Navigation

Chen Gao, Liankai Jin, Xingyu Peng, Jiazhao Zhang, Yue Deng, Annan Li, He Wang, Si Liu

arXiv Embodied AI Navigation

CVPR 2026

Parse, Search, and Confirmation: Training-Free Aerial Vision-and-Dialog Navigation with Chain-of-Thought Reasoning and Structured Spatial Memory

Yu Qi, Hongyu Li, Shaofei Huang, Tianrui Hui, Yaxiong Wang, Lechao Cheng, Zhun Zhong, Si Liu, Meng Wang

UAV Embodied AI Vision-Language

CVPR 2026

LookasideVLN: Direction-Aware Aerial Vision-and-Language Navigation

Yuwei Ning, Ganlong Zhao, Yipeng Qin, Si Liu, Yang Liu, Liang Lin, Guanbin Li

UAV Embodied AI Vision-Language

CVPR 2026

2025

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation

Songhao Han#, Boxiang Qiu#, Yue Liao#, Siyuan Huang, Chen Gao, Shuicheng Yan*, Si Liu*

arXiv Embodied AI Robotics Dataset

NeurIPS 2025

GaussianPainter: Painting Point Cloud into 3D Gaussians with Normal Guidance

Jingqiu Zhou#, Lue Fan#, Xuesong Chen, Linjiang Huang*, Si Liu, Hongsheng Li

arXiv 3D Vision Neural Rendering

AAAI 2025

Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation

Shaofei Huang#, Rui Ling#, Hongyu Li#, Tianrui Hui, Zongheng Tang, Xiaoming Wei, Jizhong Han, Si Liu*

arXiv Video Understanding Multimodal Learning

AAAI 2025

2024

Multi-Person Pose Regression with Distribution-Aware Single-Stage Models

Leyan Zhu#, Zitian Wang#, Si Liu*, Xuecheng Nie, Luoqi Liu, Bo Li

Pose Estimation

TPAMI 2024

Data Augmentation in Human-Centric Vision

Wentao Jiang, Yige Zhang, Shaozhong Zheng, Si Liu*, Shuicheng Yan

arXiv Data Augmentation Human-Centric Vision

Vicinagearth (Springer Nature) 2024

FeatAug-DETR: Enriching One-to-Many Matching for DETRs with Feature Augmentation

Rongyao Fang, Peng Gao, Aojun Zhou, Yingjie Cai, Si Liu, Jifeng Dai, Hongsheng Li*

arXiv Detection Data Augmentation

TPAMI 2024

2023

Language-Aware Spatial-Temporal Collaboration for Referring Video Segmentation

Tianrui Hui, Si Liu*, Zihan Ding, Shaofei Huang, Guanbin Li, Wenguan Wang, Luoqi Liu, Jizhong Han

arXiv Video Understanding Segmentation

TPAMI 2023

Room-Object Entity Prompting and Reasoning for Embodied Referring Expression

Chen Gao, Si Liu*, Jinyu Chen, Luting Wang, Qi Wu, Bo Li, Qi Tian

Embodied AI Prompting Scene Understanding

TPAMI 2023

Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe

Hongyang Li*, Chonghao Sima, Jifeng Dai, Wenhai Wang, Lewei Lu*, Huijie Wang, Jia Zeng, Zhiqi Li, Jiazhi Yang, Hanming Deng, Hao Tian, Enze Xie, Jiangwei Xie, Li Chen, Tianyu Li, Yang Li, Yulu Gao, Xiaosong Jia, Si Liu, Jianping Shi, Dahua Lin, Yu Qiao

arXiv Autonomous Driving Benchmark

TPAMI 2023

2022

3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive Selection

Junyu Luo#, Jiahui Fu#, Xianghao Kong, Chen Gao*, Haibing Ren, Hao Shen, Huaxia Xia, Si Liu

arXiv 3D Vision Grounding

CVPR 2022 (Oral)

GEN-VLKT: Simplify Association and Enhance Interaction Understanding for HOI Detection

Yue Liao, Aixi Zhang, Miao Lu, Yongliang Wang, Xiaobo Li, Si Liu*

arXiv Video Understanding Detection HOI

CVPR 2022

PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding

Zihan Ding#, Zi-han Ding#, Tianrui Hui*, Junshi Huang, Xiaoming Wei, Xiaolin Wei, Si Liu

arXiv Segmentation Grounding

ACM MM 2022

2021

Video Background Music Generation with Controllable Music Transformer

Shangzhe Di#, Zeren Jiang#, Si Liu*, Zhaokai Wang, Leyan Zhu, Zexin He, Hongming Liu, Shuicheng Yan

arXiv Video Understanding Audio Image Generation

ACM MM 2021 Best Paper

Language-Guided Global Image Editing via Cross-Modal Cyclic Mechanism

Wentao Jiang, Ning Xu, Jiayun Wang, Chen Gao, Jing Shi, Zhe Lin, Si Liu*

Multimodal Learning Image Generation Diffusion

ICCV 2021

Mining the Benefits of Two-stage and One-stage HOI Detection

Aixi Zhang#, Yue Liao#, Si Liu*, Miao Lu, Yongliang Wang, Chen Gao, Xiaobo Li

arXiv Detection HOI

NeurIPS 2021

2020

Scene Graph Generation with Hierarchical Context

Guanghui Ren, Lejian Ren, Yue Liao, Si Liu*, Bo Li, Jizhong Han, Shuicheng Yan

Image Generation Graph Learning Scene Understanding

TNNLS 2020

ORDNet: Capturing Omni-Range Dependencies for Scene Parsing

Shaofei Huang, Si Liu*, Tianrui Hui, Jizhong Han, Bo Li, Jiashi Feng, Shuicheng Yan

arXiv Segmentation Scene Understanding

TIP 2020

PSGAN: Pose and Expression Robust Spatial-Aware GAN for Customizable Makeup Transfer

Wentao Jiang, Si Liu*, Chen Gao, Jie Cao, Ran He, Jiashi Feng, Shuicheng Yan

arXiv Pose Estimation Image Generation Face Analysis

CVPR 2020 Oral

2019

Magic-wall: Visualizing Room Decoration by Enhanced Wall Segmentation

Ting Liu, Yunchao Wei, Yao Zhao, Si Liu, Shikui Wei

Segmentation Scene Understanding

TIP 2019

Accurate Facial Image Parsing at Real-Time Speed

Zhen Wei, Si Liu, Yao Sun, Hefei Ling

Segmentation

TIP 2019

RotateView: A Video Composition System for Interactive Product Display

Shan An, Si Liu*, Zhibiao Huang, Guangfu Che, Qian Bao, Zhaoqi Zhu, Yu Chen, Dennis Z. Weng

Video Understanding

TMM 2019

2018

Cross-domain Human Parsing via Adversarial Feature and Label Adaptation

Si Liu, Yao Sun, Defa Zhu, Guanghui Ren, Yu Chen, Jiashi Feng, Jizhong Han

arXiv Segmentation Human-Centric Vision

AAAI 2018

Learning Adaptive Receptive Fields for Deep Image Parsing Network

Zhen Wei, Yao Sun, Junyu Lin, Si Liu

Segmentation

Computational Visual Media 2018

Ensemble Soft-Margin Softmax Loss for Image Classification

Xiaobo Wang, Shifeng Zhang, Zhen Lei, Si Liu, Xiaojie Guo, Stan Z. Li

arXiv Recognition

IJCAI 2018

2017

A weakly supervised method for makeup-invariant face verification

Yao Sun, Lejian Ren, Zhen Wei, Bin Liu, Yanlong Zhai, Si Liu

Face Analysis

Pattern Recognition 2017

Adult Images and Videos Recognition by Deep Multi-Context Network and Fine-to-Coarse Strategy

Xinyu Ou, Hefei Ling, Han Yu, Si Liu

Video Understanding Recognition

TIST 2017

Objectness Region Enhancement Networks for Scene Parsing

Xinyu Ou, Ping Li, Hefei Ling, Si Liu, Tianjiang Wang, Dan Li

Segmentation Image Generation Scene Understanding

JCST 2017

2016

SketchNet: Sketch Classification with Web Images

Hua Zhang, Si Liu, Changqing Zhang, Wenqi Ren, Xiaochun Cao

Recognition Sketch Understanding

CVPR 2016

Structural Correlation Filter for Robust Visual Tracking

Si Liu, Tianzhu Zhang, Changsheng Xu, Xiaochun Cao

Tracking

CVPR 2016

Single Image Dehazing via Multi-Scale Convolutional Neural Networks

Wenqi Ren, Si Liu, Hua Zhang, Jianshan Pan, Xiaochun Cao, Ming-Hsuan Yang

Image Enhancement

ECCV 2016

2015

Matching-CNN Meets KNN: Quasi-Parametric Human Parsing

Si Liu, Xiaodan Liang, Luoqi Liu, Xiaohui Shen, Jianchao Yang, Changsheng Xu, Xiaochun Cao, Shuicheng Yan

arXiv Segmentation Human-Centric Vision

CVPR 2015

Towards Computational Baby Learning: A Weakly-Supervised Approach for Object Detection

Xiaodan Liang, Si Liu, Yunchao Wei, Luoqi Liu, Liang Lin, Shuicheng Yan

Detection

ICCV 2015

Deep People Counting in Extremely Dense Crowds

Chuan Wang, Hua Zhang, Yang Liang, Si Liu, Xiaochun Cao

Counting

ACM MM 2015

2014

Fashion Parsing with Video Context

Si Liu, Xiaodan Liang, Luoqi Liu, Liang Lin, Ke Lv, Shuicheng Yan

Video Understanding Segmentation Fashion Vision

ACM MM 2014

Puzzle Search: Image Retrieval and Ranking with Consistent Reconstruction of Multi-Attribute Queries

Xiaochun Cao, Hua Zhang, Xiaojie Guo, Si Liu, Xiaowu Chen

Retrieval

ECCV 2014

Clothing Attributes Assisted Person Re-identification

Annan Li, Luoqi Liu, Kang Wang, Si Liu, Shuicheng Yan

Re-ID

TCSVT 2014

2013

Towards Decrypting Attractiveness via Multi-Modality Cues

Tam V. Nguyen, Si Liu, Bingbing Ni, Jun Tan, Yong Rui, Shuicheng Yan

Face Analysis

TOMCCAP 2013

Wow! you are so beautiful today!

Luoqi Liu, Hui Xu, Junliang Xing, Si Liu, Xi Zhou, Shuicheng Yan

Face Analysis

ACM MM 2013 Best Paper

eHeritage of shadow puppetry: creation and manipulation

Min Lin, Zhenzhen Hu, Si Liu, Meng Wang, Richang Hong, Shuicheng Yan

Robotics

ACM MM 2013

2012

Hi, magic closet, tell me what to wear!

Si Liu, Tam V. Nguyen, Jiashi Feng, Meng Wang, Shuicheng Yan

Fashion Vision

ACM MM 2012 Best Demo

Hi, magic closet, tell me what to wear!

Si Liu, Jiashi Feng, Zheng Song, Tianzhu Zhang, Hanqing Lu, Changsheng Xu, Shuicheng Yan

Fashion Vision

ACM MM 2012

Street-to-Shop: Cross-Scenario Clothing Retrieval via Human Part Alignment and Auxiliary Set

Si Liu, Zheng Song, Guangcan Liu, Shuicheng Yan, Changsheng Xu, Hanqing Lu

Retrieval Human-Centric Vision

CVPR 2012 Oral

2011

Boosted Exemplar Learning for Action Recognition and Annotation

Tianzhu Zhang, Jing Liu, Si Liu, Changsheng Xu, Hanqing Lu

Video Understanding Recognition Image Annotation

TCSVT 2011

Size Adaptive Selection of Most Informative Features

Si Liu, Hairong Liu, Shuicheng Yan, Longin Latecki, Changsheng Xu, Hanqing Lu

Feature Selection

AAAI 2011 Oral

Snap & Play: Auto-generate Personalized Find-the-Difference Mobile Game

Si Liu, Qiang Chen, Shuicheng Yan, Changsheng Xu, Hanqing Lu

Interactive Vision

ACM MM 2011

2010

A Generic Framework for Event Detection in Various Video Domain

Tianzhu Zhang, Changsheng Xu, Guangyu Zhu, Si Liu, Hanqing Lu

Video Understanding Detection

ACM MM 2010

发表论文

All Publications

2026

OctoNav: Towards Generalist Embodied Navigation

Parse, Search, and Confirmation: Training-Free Aerial Vision-and-Dialog Navigation with Chain-of-Thought Reasoning and Structured Spatial Memory

LookasideVLN: Direction-Aware Aerial Vision-and-Language Navigation

VGGT-Segmentor: Geometry-Enhanced Cross-View Segmentation

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

Geometry-Guided 3D Visual Token Pruning for Video-Language Models

2025

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation

GaussianPainter: Painting Point Cloud into 3D Gaussians with Normal Guidance

Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation

Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation

Point Cluster: A Compact Message Unit for Communication-Efficient Collaborative Perception

MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More

Generative Map Priors for Collaborative BEV Semantic Segmentation

FlexDrive: Toward Trajectory Flexibility in Driving Scene Reconstruction and Rendering

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding

Revisiting Audio-Visual Segmentation with Vision-Centric Transformer

Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMS

Video2BEV: Transforming Drone Videos to BEVs for Video-based Geo-localization

CoST: Efficient Collaborative Perception From Unified Spatiotemporal Perspective

CycleVAR: Repurposing Autoregressive Model for Unsupervised One-Step Image Translation

RATopo: Improving Lane Topology Reasoning via Redundancy Assignment

DOMR: Establishing Cross-View Segmentation via Dense Object Matching

AeroDuo: Aerial Duo for UAV-based Vision and Language Navigation

"Hi AirStar, Guide Me to the Badminton Court."

UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation

Towards Realistic Earth-Observation Constellation Scheduling: Benchmark and Methodology

FACT: Mitigating Inconsistent Hallucinations in LLMs via Fact-Driven Alternating Code-Text Training

M2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection

2024

Multi-Person Pose Regression with Distribution-Aware Single-Stage Models

Data Augmentation in Human-Centric Vision

FeatAug-DETR: Enriching One-to-Many Matching for DETRs with Feature Augmentation

PPDM++: Parallel Point Detection and Matching for Fast and Accurate HOI Detection

MAC: Masked Contrastive Pre-Training for Efficient Video-Text Retrieval

RGB-T Tracking with Template-Bridged Search Interaction and Target-Preserved Template Updating

Anchor3DLane++: 3D Lane Detection via Sample-Adaptive Sparse 3D Anchor Regression

ReSimAD: Zero-Shot 3D Domain Transfer for Autonomous Driving with Source Reconstruction and Target Simulation

Octavius: Mitigating Task Interference in MLLMs via MoE

Eliminating Cross-modal Conflicts in BEV Space for LiDAR-Camera 3D Object Detection

Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative Training

EASE-DETR: Easing the Competition among Object Queries

Reference Prompted Model Adaptation for Referring Camouflaged Object Detection

SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection

Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection

Communication-Efficient Collaborative Perception via Information Filling with Codebook

Mask-Enhanced Segment Anything Model for Tumor Lesion Semantic Segmentation

Realistic Rainy Weather Simulation for LiDARs in CARLA Simulator

Asynchronous Large Language Model Enhanced Planner for Autonomous Driving

LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction

Controllable Navigation Instruction Generation with Chain of Thought Prompting

FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis

GPD-VVTO: Preserving Garment Details in Video Virtual Try-On

Collaborative Training of Tiny-Large Vision Language Models

Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding

Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT

Image Understanding Makes for A Good Tokenizer for Image Generation

CooHOI: Learning Cooperative Human-Object Interaction with Manipulated Object Dynamics

2023

Language-Aware Spatial-Temporal Collaboration for Referring Video Segmentation

Room-Object Entity Prompting and Reasoning for Embodied Referring Expression

Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe

Teach-DETR: Better Training DETR with Teachers

Region-Adaptive and Context-Complementary Cross Modulation for RGB-T Semantic Segmentation

MI3C: Mining Intra- and Inter-Image Context for Person Search

Linker: Learning Long Short-term Associations for Robust Visual Tracking

Anchor3DLane: Learning to Regress 3D Anchors for Monocular 3D Lane Detection

Bridging Search Region Interaction with Template for RGB-T Tracking

DETR with Additional Global Aggregation for Cross-domain Weakly Supervised Object Detection

Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection

Adaptive Zone-aware Hierarchical Planner for Vision-Language Navigation

Improving Weakly Supervised Temporal Action Localization by Bridging Train-Test Gap in Pseudo Labels

Analyzing Infrastructure LiDAR Placement with Realistic LiDAR Simulation Library

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT