Towards Open-World Grasping with Large Vision-Language Models

Towards Open-World Grasping with Large Vision-Language Models

26 June 2024

Georgios Tziafas

Papers citing "Towards Open-World Grasping with Large Vision-Language Models"

12 / 12 papers shown

Title
LM-MCVT: A Lightweight Multi-modal Multi-view Convolutional-Vision Transformer Approach for 3D Object Recognition Songsong Xiong H. Kasaei 137 0 0 27 Apr 2025
GAT-Grasp: Gesture-Driven Affordance Transfer for Task-Aware Robotic Grasping Ruixiang Wang Huayi Zhou Xinyue Yao Guiliang Liu Kui Jia 39 0 0 08 Mar 2025
AffordGrasp: In-Context Affordance Reasoning for Open-Vocabulary Task-Oriented Grasping in Clutter Yingbo Tang S. Zhang Xiaoshuai Hao Pengwei Wang Jianlong Wu Z. Wang Shanghang Zhang 63 6 0 02 Mar 2025
Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning Yingdong Hu Fanqi Lin Tong Zhang Li Yi Yang Gao LM&Ro 91 101 0 29 Nov 2023
L3MVN: Leveraging Large Language Models for Visual Target Navigation Bangguo Yu H. Kasaei M. Cao LM&Ro 52 85 0 11 Apr 2023
Open-World Object Manipulation using Pre-trained Vision-Language Models Austin Stone Ted Xiao Yao Lu K. Gopalakrishnan Kuang-Huei Lee ... Sean Kirmani Brianna Zitkovich F. Xia Chelsea Finn Karol Hausman LM&Ro 153 145 0 02 Mar 2023
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 246 2,494 0 06 Oct 2022
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models Ishika Singh Valts Blukis Arsalan Mousavian Ankit Goyal Danfei Xu Jonathan Tremblay D. Fox Jesse Thomason Animesh Garg LM&Ro LLMAG 120 624 0 22 Sep 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 328 4,077 0 24 May 2022
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models Yuan Yao Ao Zhang Zhengyan Zhang Zhiyuan Liu Tat-Seng Chua Maosong Sun MLLM VPVLM VLM 208 221 0 24 Sep 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Nayeon Lee Weicheng Kuo Huayu Chen VLM ObjD 225 899 0 28 Apr 2021
Closing the Loop for Robotic Grasping: A Real-time, Generative Grasp Synthesis Approach D. Morrison Peter Corke Jurgen Leitner 3DV 37 550 0 14 Apr 2018