BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models

21 February 2024

Wei Bi

Lingpeng Kong

LRM

ArXiv PDF HTML

Papers citing "BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models"

39 / 39 papers shown

Title
CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs Daoan Zhang Junming Yang Hanjia Lyu Zijian Jin Yuan Yao Mingkai Chen Jiebo Luo 72 36 0 05 Jan 2024
V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs Penghao Wu Saining Xie LRM 75 147 0 21 Dec 2023
An Evaluation of GPT-4V and Gemini in Online VQA Mengchen Liu Chongyan Chen Danna Gurari MLLM 81 7 0 17 Dec 2023
Good Questions Help Zero-Shot Image Reasoning Kaiwen Yang Tao Shen Xinmei Tian Xiubo Geng Chongyang Tao Dacheng Tao Dinesh Manocha LRM 68 7 0 04 Dec 2023
Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning Yingdong Hu Fanqi Lin Tong Zhang Li Yi Yang Gao LM&Ro 113 115 0 29 Nov 2023
Compositional Chain-of-Thought Prompting for Large Multimodal Models Chancharik Mitra Brandon Huang Trevor Darrell Roei Herzig MLLM LRM 74 87 0 27 Nov 2023
Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions Ziyue Wang Chi Chen Peng Li Yang Liu LRM 66 15 0 20 Nov 2023
The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task Yifan Wu Pengchuan Zhang Wenhan Xiong Barlas Oğuz James C. Gee Yixin Nie LRM 39 18 0 15 Nov 2023
An Early Evaluation of GPT-4V(ision) Yang Wu Shilong Wang Hao Yang Tian Zheng Hongbo Zhang Yanyan Zhao Bing Qin MLLM ELM 32 39 0 25 Oct 2023
DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models Ge Zheng Bin Yang Jiajin Tang Hong-Yu Zhou Sibei Yang LRM MLLM 70 106 0 25 Oct 2023
OpenAgents: An Open Platform for Language Agents in the Wild Tianbao Xie Fan Zhou Zhoujun Cheng Peng Shi Luoxuan Weng ... Yiheng Xu Hongjin Su Dongchan Shin Caiming Xiong Tao Yu LLMAG 90 98 0 16 Oct 2023
Improved Baselines with Visual Instruction Tuning Haotian Liu Chunyuan Li Yuheng Li Yong Jae Lee VLM MLLM 108 2,672 0 05 Oct 2023
Large Language Models Cannot Self-Correct Reasoning Yet Jie Huang Xinyun Chen Swaroop Mishra Huaixiu Steven Zheng Adams Wei Yu Xinying Song Denny Zhou ReLM LRM 71 460 0 03 Oct 2023
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) Zhengyuan Yang Linjie Li Kevin Qinghong Lin Jianfeng Wang Chung-Ching Lin Nasim Shakouri Mahmoudabadi Lijuan Wang LM&MA 49 630 0 29 Sep 2023
MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning Haozhe Zhao Zefan Cai Shuzheng Si Xiaojian Ma Kaikai An Liang Chen Zixuan Liu Sheng Wang Wenjuan Han Baobao Chang MLLM VLM 65 139 0 14 Sep 2023
Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic Ke Chen Zhao Zhang Weili Zeng Richong Zhang Feng Zhu Rui Zhao ObjD 78 631 0 27 Jun 2023
Kosmos-2: Grounding Multimodal Large Language Models to the World Zhiliang Peng Wenhui Wang Li Dong Y. Hao Shaohan Huang Shuming Ma Furu Wei MLLM ObjD VLM 95 740 0 26 Jun 2023
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate Tian Liang Zhiwei He Wenxiang Jiao Xing Wang Rui Wang Yujiu Yang Zhaopeng Tu Shuming Shi LLMAG LRM 62 470 0 30 May 2023
Towards Revealing the Mystery behind Chain of Thought: A Theoretical Perspective Guhao Feng Bohang Zhang Yuntian Gu Haotian Ye Di He Liwei Wang LRM 82 246 0 24 May 2023
Improving Factuality and Reasoning in Language Models through Multiagent Debate Yilun Du Shuang Li Antonio Torralba J. Tenenbaum Igor Mordatch LLMAG LRM 137 709 0 23 May 2023
Examining Inter-Consistency of Large Language Models Collaboration: An In-depth Analysis via Debate Kai Xiong Xiao Ding Yixin Cao Ting Liu Bing Qin 67 71 0 19 May 2023
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning Wenliang Dai Junnan Li Dongxu Li A. M. H. Tiong Junqi Zhao Weisheng Wang Boyang Albert Li Pascale Fung Steven C. H. Hoi MLLM VLM 91 2,047 0 11 May 2023
Otter: A Multi-Modal Model with In-Context Instruction Tuning Yue Liu Yuanhan Zhang Liangyu Chen Jinghao Wang Jingkang Yang Ziwei Liu MLLM 64 514 0 05 May 2023
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model Peng Gao Jiaming Han Renrui Zhang Ziyi Lin Shijie Geng ... Pan Lu Conghui He Xiangyu Yue Hongsheng Li Yu Qiao MLLM 85 578 0 28 Apr 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 270 945 0 27 Apr 2023
Teaching Large Language Models to Self-Debug Xinyun Chen Maxwell Lin Nathanael Scharli Denny Zhou LRM 93 688 0 11 Apr 2023
Self-Refine: Iterative Refinement with Self-Feedback Aman Madaan Niket Tandon Prakhar Gupta Skyler Hallinan Luyu Gao ... Bodhisattwa Prasad Majumder Katherine Hermann Sean Welleck Amir Yazdanbakhsh Peter Clark ReLM LRM DiffM 129 1,618 0 30 Mar 2023
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Renrui Zhang Jiaming Han Chris Liu Peng Gao Aojun Zhou Xiangfei Hu Shilin Yan Pan Lu Hongsheng Li Yu Qiao MLLM 141 774 0 28 Mar 2023
LLaMA: Open and Efficient Foundation Language Models Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux ... Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave Guillaume Lample ALM PILM 1.3K 13,100 0 27 Feb 2023
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 393 2,812 0 06 Oct 2022
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark Ashwin Kalyan ELM ReLM LRM 250 1,235 0 20 Sep 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 488 4,077 0 24 May 2022
Least-to-Most Prompting Enables Complex Reasoning in Large Language Models Denny Zhou Nathanael Scharli Le Hou Jason W. Wei Nathan Scales ... Dale Schuurmans Claire Cui Olivier Bousquet Quoc Le Ed H. Chi RALM LRM AI4CE 70 1,101 0 21 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 500 3,589 0 21 Mar 2022
Acquisition of Chess Knowledge in AlphaZero Thomas McGrath A. Kapishnikov Nenad Tomašev Adam Pearce Demis Hassabis Been Kim Ulrich Paquet Vladimir Kramnik 53 162 0 17 Nov 2021
Measuring Mathematical Problem Solving With the MATH Dataset Dan Hendrycks Collin Burns Saurav Kadavath Akul Arora Steven Basart Eric Tang D. Song Jacob Steinhardt ReLM FaML 147 2,220 0 05 Mar 2021
The ActivityNet Large-Scale Activity Recognition Challenge 2018 Summary Guohao Li Juan Carlos Niebles Cees G. M. Snoek Fabian Caba Heilbron Humam Alwassel Victor Escorcia Ranjay Krishna S. Buch Cuong Duc Dao 72 65 0 11 Aug 2018
Graph R-CNN for Scene Graph Generation Jianwei Yang Jiasen Lu Stefan Lee Dhruv Batra Devi Parikh GNN 105 842 0 01 Aug 2018
Audio-Visual Scene Analysis with Self-Supervised Multisensory Features Andrew Owens Alexei A. Efros SSL 89 748 0 10 Apr 2018