Title
Multi-agent Embodied AI: Advances and Future Directions Zhaohan Feng Ruiqi Xue Lei Yuan Yang Yu Ning Ding M. Liu Bingzhao Gao Jian Sun Gang Wang AI4CE 60 1 0 08 May 2025
RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration Huajie Tan Xiaoshuai Hao Minglan Lin Pengwei Wang Yaoxu Lyu Mingyu Cao Zhongyuan Wang Shanghang Zhang LM&Ro 48 0 0 06 May 2025
Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey Jing Liu Yao Du Kun Yang Yan Wang Xiping Hu Zehua Wang Yang Liu Peng Sun Azzedine Boukerche Victor C.M. Leung 43 0 0 03 May 2025
Robotic Visual Instruction Y. Li Ziyang Gong Yiming Li Xiaoqi Huang Haolan Kang Guangping Bai Xianzheng Ma LM&Ro 76 0 0 01 May 2025
Generative AI in Embodied Systems: System-Level Analysis of Performance, Efficiency and Scalability Zishen Wan Jiayi Qian Yuhang Du Jason J. Jabbour Yilun Du Yang Katie Zhao A. Raychowdhury Tushar Krishna Vijay Janapa Reddi LM&Ro 91 0 0 26 Apr 2025
Manipulating Multimodal Agents via Cross-Modal Prompt Injection Le Wang Zonghao Ying Tianyuan Zhang Siyuan Liang Shengshan Hu Mingchuan Zhang A. Liu Xianglong Liu AAML 33 1 0 19 Apr 2025
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks Wenbo Zhang Mengna Wang Gangao Liu Xu Huixin Yiwei Jiang ... Hang Zhang Xin Li Weiming Lu Peng Li Yueting Zhuang LM&Ro LRM 75 3 0 27 Mar 2025
GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback Sungjae Lee Yeonjoo Hong Kwang In KIm 51 0 0 19 Mar 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Yansen Wang Shengqiong Wu Yujie Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 92 9 0 16 Mar 2025
Hybrid Agents for Image Restoration Bingchen Li X. Li Yiting Lu Zhibo Chen 88 1 0 13 Mar 2025
VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers Ruanjun Li Yuedong Tan Yuanming Shi Jiawei Shao VLM 177 0 0 12 Mar 2025
EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments Dongping Li Tielong Cai Tianci Tang Wenhao Chai Katherine Rose Driggs-Campbell Gaoang Wang LM&Ro 61 0 0 11 Mar 2025
Less is More: Adaptive Program Repair with Bug Localization and Preference Learning Zhenlong Dai Bingrui Chen Zhuoluo Zhao Xiu Tang Sai Wu Chang Yao Zhipeng Gao Jingyuan Chen KELM 54 2 0 09 Mar 2025
Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning Yanjun Chen Yirong Sun Xinghao Chen Jian Wang Xiaoyu Shen W. Li Wei Zhang 3DV LRM 64 1 0 08 Mar 2025
Generative Artificial Intelligence in Robotic Manipulation: A Survey Kun Zhang Peng Yun Jun Cen Junhao Cai DiDi Zhu ... Qifeng Chen Jia Pan Wei Zhang Bo Yang Hua Chen 59 1 0 05 Mar 2025
Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models Zhaoyi Liu Huan Zhang AAML 86 0 0 25 Feb 2025
FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models Hongzhan Lin Yang Deng Yuxuan Gu Wenxuan Zhang Jing Ma See-Kiong Ng Tat-Seng Chua LLMAG KELM HILM 68 0 0 25 Feb 2025
Group-CLIP Uncertainty Modeling for Group Re-Identification Qingxin Zhang Haoyan Wei Yang Qian 48 0 0 10 Feb 2025
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling Yi Wang Xinhao Li Ziang Yan Yinan He Jiashuo Yu ... Kai Chen Wenhai Wang Yu Qiao Yali Wang Limin Wang 91 22 0 21 Jan 2025
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics Ruilin Luo Zhuofan Zheng Yifan Wang Yiyao Yu Xinzhe Ni Zicheng Lin Jin Zeng Yujiu Yang LRM 83 13 0 08 Jan 2025
Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Yue Zhang Ziqiao Ma Jialu Li Yanyuan Qiao Zun Wang J. Chai Qi Wu Joey Tianyi Zhou Parisa Kordjamshidi LRM 63 19 0 31 Dec 2024
SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models Zhiyuan Zhou Heye Huang Boqi Li Shiyue Zhao Yao Mu Jianqiang Wang 91 1 0 17 Dec 2024
LossAgent: Towards Any Optimization Objectives for Image Processing with LLM Agents Bingchen Li Xin Li Yiting Lu Zhibo Chen 89 1 0 05 Dec 2024
RoboMatrix: A Skill-centric Hierarchical Framework for Scalable Robot Task Planning and Execution in Open-World Weixin Mao Weiheng Zhong Zhou Jiang Dong Fang Zhongyue Zhang ... Fan Jia Tiancai Wang Haoqiang Fan Osamu Yoshie Osamu Yoshie 119 5 0 29 Nov 2024
Is 'Right' Right? Enhancing Object Orientation Understanding in Multimodal Large Language Models through Egocentric Instruction Tuning Ji Hyeok Jung Eun Tae Kim S. Kim Joo Ho Lee Bumsoo Kim Buru Chang VLM 233 0 0 24 Nov 2024
GiVE: Guiding Visual Encoder to Perceive Overlooked Information Junjie Li Jianghong Ma Xiaofeng Zhang Yuhang Li Jianyang Shi 43 0 0 26 Oct 2024
Facilitating Multi-turn Function Calling for LLMs via Compositional Instruction Tuning Mingyang Chen Haoze Sun Tianpeng Li Fan Yang Hao Liang Keer Lu Bin Cui Wentao Zhang Zenan Zhou Weipeng Chen LRM 52 5 0 16 Oct 2024
ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models Lingfeng Zhang Yuening Wang Hongjian Gu Atia Hamidizadeh Zhanguang Zhang ... Tongtong Cao Yuzheng Zhuang Yingxue Zhang Jianye Hao Jianye Hao LM&Ro 46 1 0 02 Oct 2024
AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation Mengkang Hu Yixiao Wang Can Xu Lingfeng Sun Chensheng Peng T. Hannagan Nicola Poerio Saravan Rajmohan LM&Ro LLMAG 69 15 0 01 Aug 2024
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners Yifei Gao Jie Ou Lei Wang Fanhua Shang Jaji Wu MQ 63 0 0 22 Jul 2024
Lifelong Robot Library Learning: Bootstrapping Composable and Generalizable Skills for Embodied Control with Language Models Georgios Tziafas H. Kasaei KELM LM&Ro 49 8 0 26 Jun 2024
DAG-Plan: Generating Directed Acyclic Dependency Graphs for Dual-Arm Cooperative Planning Zeyu Gao Yao Mu Jinye Qu Mengkang Hu Lingyue Guo Ping Luo Yanfeng Lu Ping Luo Shanghang Zhang Yanfeng Lu 54 10 0 14 Jun 2024
DriVLMe: Enhancing LLM-based Autonomous Driving Agents with Embodied and Social Experiences Yidong Huang Jacob Sansom Ziqiao Ma Felix Gervits Joyce Chai 44 17 0 05 Jun 2024
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration Yang Zhang Shixin Yang Chenjia Bai Fei Wu Xiu Li Zhen Wang Xuelong Li LLMAG 36 25 0 23 May 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 82 43 0 23 May 2024
HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models Gabriel H. Sarch Sahil Somani Raghav Kapoor Michael J. Tarr Katerina Fragkiadaki LM&Ro LLMAG 37 3 0 29 Apr 2024
Self-Explainable Affordance Learning with Embodied Caption Zhipeng Zhang Zhimin Wei Guolei Sun Peng Wang Luc Van Gool 53 3 0 08 Apr 2024
SegICL: A Multimodal In-context Learning Framework for Enhanced Segmentation in Medical Imaging Lingdong Shen Fangxin Shang Xiaoshuang Huang Yehui Yang Haifeng Huang Shiming Xiang VLM 37 3 0 25 Mar 2024
Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis Vishnu Sashank Dorbala Sanjoy Chowdhury Dinesh Manocha LM&Ro 38 0 0 18 Mar 2024
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning Bingqian Lin Yunshuang Nie Ziming Wei Jiaqi Chen Shikui Ma Jianhua Han Hang Xu Xiaojun Chang Xiaodan Liang LM&Ro LRM 62 20 0 12 Mar 2024
Spatiotemporal Predictive Pre-training for Robotic Motor Control Jiange Yang Bei Liu Jianlong Fu Bocheng Pan Gangshan Wu Limin Wang 47 10 0 08 Mar 2024
Embodied Understanding of Driving Scenarios Yunsong Zhou Linyan Huang Qingwen Bu Jia Zeng Tianyu Li Hang Qiu Hongzi Zhu Minyi Guo Yu Qiao Hongyang Li LM&Ro 62 31 0 07 Mar 2024
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation Junting Chen Yao Mu Qiaojun Yu Tianming Wei Silang Wu ... Wenqi Shao Yu Qiao Huazhe Xu Mingyu Ding Ping Luo LM&Ro 34 11 0 22 Feb 2024
Exploring Perceptual Limitation of Multimodal Large Language Models Jiarui Zhang Jinyi Hu Mahyar Khayatkhoei Filip Ilievski Maosong Sun LRM 29 10 0 12 Feb 2024
CognitiveOS: Large Multimodal Model based System to Endow Any Type of Robot with Generative AI Artem Lykov Mikhail Konenkov Koffivi Fidele Gbagbe Mikhail Litvinov D. Davletshin A. Fedoseev Miguel Altamirano Cabrera Robinroy Peter Dzmitry Tsetserukou LM&Ro 31 5 0 29 Jan 2024
MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation Jiaqi Chen Bingqian Lin Ran Xu Zhenhua Chai Xiaodan Liang Kwan-Yee K. Wong LM&Ro LLMAG 39 28 0 14 Jan 2024
DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving Wenhai Wang Jiangwei Xie ChuanYang Hu Haoming Zou Jianan Fan ... Lewei Lu Xizhou Zhu Xiaogang Wang Yu Qiao Jifeng Dai 36 125 0 14 Dec 2023
Dolphins: Multimodal Language Model for Driving Yingzi Ma Yulong Cao Jiachen Sun Marco Pavone Chaowei Xiao MLLM 38 50 0 01 Dec 2023
Bridging Low-level Geometry to High-level Concepts in Visual Servoing of Robot Manipulation Task Using Event Knowledge Graphs and Vision-Language Models Chen Jiang Martin Jägersand 58 1 0 05 Oct 2023
Avalon's Game of Thoughts: Battle Against Deception through Recursive Contemplation Shenzhi Wang Chang Liu Zilong Zheng Siyuan Qi Shuo Chen Qisen Yang Andrew Zhao Chaofei Wang Shiji Song Gao Huang LLMAG 37 63 0 02 Oct 2023