v1v2v3 (latest)

SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model

2 December 2024

Papers citing "SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model"

43 / 43 papers shown

Title
OpenHOI: Open-World Hand-Object Interaction Synthesis with Multimodal Large Language Model Zhenhao Zhang Ye-ling Shi Lingxiao Yang Suting Ni Qi Ye Jingya Wang 74 0 0 25 May 2025
3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds Hengshuo Chu Xiang Deng Qi Lv Xiaoyang Chen Yinchuan Li Haifeng Zhang Liqiang Nie 164 4 0 27 Feb 2025
GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency Dongyue Lu Lingdong Kong Tianxin Huang Gim Hee Lee 101 3 0 12 Dec 2024
GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding Yawen Shao Wei-dong Zhai Yuhang Yang Hongchen Luo Yang Cao Zheng-jun Zha 171 1 0 29 Nov 2024
Learning 2D Invariant Affordance Knowledge for 3D Affordance Grounding Xianqiang Gao Pingrui Zhang Delin Qu Dong Wang Zhigang Wang Yan Ding Bin Zhao Xuelong Li 99 5 0 23 Aug 2024
ShapeLLM: Universal 3D Object Understanding for Embodied Interaction Zekun Qi Runpei Dong Shaochen Zhang Haoran Geng Chunrui Han Zheng Ge Li Yi Kaisheng Ma 206 63 0 27 Feb 2024
Robo-ABC: Affordance Generalization Beyond Categories via Semantic Correspondence for Robot Manipulation Yuanchen Ju Kaizhe Hu Guowei Zhang Gu Zhang Mingrun Jiang Huazhe Xu 105 50 0 15 Jan 2024
AffordanceLLM: Grounding Affordance from Vision Language Models Shengyi Qian Weifeng Chen Min Bai Xiong Zhou Zhuowen Tu Li Erran Li 112 24 0 12 Jan 2024
LEMON: Learning 3D Human-Object Interaction Relation from 2D Images Yuhang Yang Wei Zhai Hongcheng Luo Yang Cao Zheng-Jun Zha 124 26 0 14 Dec 2023
One-Shot Open Affordance Learning with Foundation Models Gen Li Deqing Sun Laura Sevilla-Lara Varun Jampani VLM 120 26 0 29 Nov 2023
Ferret: Refer and Ground Anything Anywhere at Any Granularity Haoxuan You Haotian Zhang Zhe Gan Xianzhi Du Bowen Zhang Zirui Wang Liangliang Cao Shih-Fu Chang Yinfei Yang ObjD MLLM VLM 159 328 0 11 Oct 2023
Learning Environment-Aware Affordance for 3D Articulated Object Manipulation under Occlusions Kai Cheng Ruihai Wu Yan Shen Chuanruo Ning Guanqi Zhan Hao Dong 145 28 0 14 Sep 2023
Where2Explore: Few-shot Affordance Learning for Unseen Novel Categories of Articulated Objects Chuanruo Ning Ruihai Wu Haoran Lu Kaichun Mo Hao Dong 126 36 0 14 Sep 2023
PointLLM: Empowering Large Language Models to Understand Point Clouds Runsen Xu Xiaolong Wang Tai Wang Yilun Chen Jiangmiao Pang Dahua Lin MLLM 135 185 0 31 Aug 2023
LISA: Reasoning Segmentation via Large Language Model Xin Lai Zhuotao Tian Yukang Chen Yanwei Li Yuhui Yuan Shu Liu Jiaya Jia LM&Ro VLM MLLM LRM 173 463 0 01 Aug 2023
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest Shilong Zhang Pei Sun Shoufa Chen Min Xiao Wenqi Shao Wenwei Zhang Yu Liu Kai-xiang Chen Ping Luo MLLM VLM 173 238 0 07 Jul 2023
GRES: Generalized Referring Expression Segmentation Chang Liu Henghui Ding Xudong Jiang 170 167 0 01 Jun 2023
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks Wen Wang Zhe Chen Xiaokang Chen Jiannan Wu Xizhou Zhu ... Ping Luo Tong Lu Jie Zhou Yu Qiao Jifeng Dai MLLM VLM 118 494 0 18 May 2023
OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding Minghua Liu Ruoxi Shi Kaiming Kuang Yinhao Zhu Xuanlin Li Shizhong Han H. Cai Fatih Porikli Hao Su 3DPC 131 124 0 18 May 2023
InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language Zhaoyang Liu Yinan He Wenhai Wang Weiyun Wang Yi Wang ... Yali Wang Limin Wang Ping Luo Jifeng Dai Yu Qiao LRM MLLM 150 85 0 09 May 2023
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models Deyao Zhu Jun Chen Xiaoqian Shen Xiang Li Mohamed Elhoseiny VLM MLLM 177 2,080 0 20 Apr 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 587 4,950 0 17 Apr 2023
Grounding 3D Object Affordance from 2D Interactions in Images Yuhang Yang Wei Zhai Hongcheng Luo Yang Cao Jiebo Luo Zhengjun Zha 100 34 0 18 Mar 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.7K 14,870 0 15 Mar 2023
Uni3D: A Unified Baseline for Multi-dataset 3D Object Detection Bo Zhang Jiakang Yuan Botian Shi Tao Chen Yikang Li Yu Qiao 3DPC 107 40 0 13 Mar 2023
Open-Vocabulary Affordance Detection in 3D Point Clouds Toan Ngyen Minh Nhat Vu Annalies Vuong Dzung Nguyen T. Vo Ngan Le A. Nguyen 3DPC 95 36 0 04 Mar 2023
LLaMA: Open and Efficient Foundation Language Models Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux ... Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave Guillaume Lample ALM PILM 1.7K 13,558 0 27 Feb 2023
Contrast with Reconstruct: Contrastive 3D Representation Learning Guided by Generative Pretraining Zekun Qi Runpei Dong Guo Fan Zheng Ge Xiangyu Zhang Kaisheng Ma Li Yi 163 131 0 05 Feb 2023
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness Tri Dao Daniel Y. Fu Stefano Ermon Atri Rudra Christopher Ré VLM 451 2,299 0 27 May 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 431 3,621 0 29 Apr 2022
3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive Selection Jun-Bin Luo Jiahui Fu Xianghao Kong Chen Gao Haibing Ren Hao Shen Huaxia Xia Si Liu 95 95 0 13 Apr 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 1.3K 13,290 0 04 Mar 2022
PartAfford: Part-level Affordance Discovery from 3D Objects Chao Xu Yixin Chen He Wang Song-Chun Zhu Yixin Zhu Siyuan Huang 100 28 0 28 Feb 2022
O2O-Afford: Annotation-Free Large-Scale Object-Object Affordance Learning Kaichun Mo Yuzhe Qin Fanbo Xiang Hao Su Leonidas Guibas LM&Ro 99 59 0 29 Jun 2021
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 846 10,659 0 17 Jun 2021
Referring Transformer: A One-step Approach to Multi-task Visual Grounding Muchen Li Leonid Sigal ObjD 119 197 0 06 Jun 2021
3D AffordanceNet: A Benchmark for Visual Object Affordance Understanding Sheng Deng Xun Xu Chaozheng Wu Ke Chen Kui Jia 104 116 0 30 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 1.1K 30,116 0 26 Feb 2021
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 1.1K 24,647 0 26 Jul 2019
PartNet: A Large-scale Benchmark for Fine-grained and Hierarchical Part-level 3D Object Understanding Kaichun Mo Shilin Zhu Angel X. Chang L. Yi Subarna Tripathi Leonidas Guibas Hao Su 3DPC 3DV 181 740 0 06 Dec 2018
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 2.0K 95,673 0 11 Oct 2018
Dynamic Graph CNN for Learning on Point Clouds Yue Wang Yongbin Sun Ziwei Liu Sanjay E. Sarma M. Bronstein Justin Solomon GNN 3DPC 563 6,211 0 24 Jan 2018
PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space C. Qi L. Yi Hao Su Leonidas Guibas 3DPC 3DV 480 11,227 0 07 Jun 2017