LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

28 March 2023

Yu Qiao

Papers citing "LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention"

50 / 588 papers shown

Title
Controllable Navigation Instruction Generation with Chain of Thought Prompting Xianghao Kong Jinyu Chen Wenguan Wang Hang Su Xiaolin Hu Yi Yang Si Liu LRM 45 4 0 10 Jul 2024
Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition Yaozong Gan Guang Li Ren Togo Keisuke Maeda Takahiro Ogawa Miki Haseyama 42 3 0 08 Jul 2024
OneDiff: A Generalist Model for Image Difference Captioning Erdong Hu Longteng Guo Tongtian Yue Zijia Zhao Shuning Xue Jing Liu VLM 26 2 0 08 Jul 2024
Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models Longxiang Tang Zhuotao Tian Kai Li Chunming He Hantao Zhou Hengshuang Zhao Xiu Li Jiaya Jia CLL VLM 39 20 0 07 Jul 2024
LoCo: Low-Bit Communication Adaptor for Large-scale Model Training Xingyu Xie Zhijie Lin Kim-Chuan Toh Pan Zhou 34 2 0 05 Jul 2024
HEMM: Holistic Evaluation of Multimodal Foundation Models Paul Pu Liang Akshay Goindani Talha Chafekar Leena Mathur Haofei Yu Ruslan Salakhutdinov Louis-Philippe Morency 41 10 0 03 Jul 2024
Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time Sanjoy Chowdhury Sayan Nag Subhrajyoti Dasgupta Jun Chen Mohamed Elhoseiny Ruohan Gao Dinesh Manocha VLM MLLM 41 9 0 01 Jul 2024
We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning? Runqi Qiao Qiuna Tan Guanting Dong Minhui Wu Chong Sun ... Yida Xu Muxi Diao Zhimin Bao Chen Li Honggang Zhang VLM LRM 44 31 0 01 Jul 2024
LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation Mushui Liu Yuhang Ma Yang Zhen Jun Dan Yunlong Yu Zeng Zhao Zhipeng Hu Bai Liu Changjie Fan VLM DiffM 63 13 0 30 Jun 2024
Assistive Image Annotation Systems with Deep Learning and Natural Language Capabilities: A Review Moseli Motsóehli VLM 3DV 32 0 0 28 Jun 2024
ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos Jr-Jen Chen Yu-Chien Liao Hsi-Che Lin Yu-Chu Yu Yen-Chun Chen Yu-Chiang Frank Wang 37 10 0 27 Jun 2024
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding Tao Zhang Xiangtai Li Hao Fei Haobo Yuan Shengqiong Wu Shunping Ji Chen Change Loy Shuicheng Yan LRM MLLM VLM 49 48 0 27 Jun 2024
Catching Chameleons: Detecting Evolving Disinformation Generated using Large Language Models Bohan Jiang Chengshuai Zhao Zhen Tan Huan Liu 38 2 0 26 Jun 2024
MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning Xiangyu Zhao Xiangtai Li Haodong Duan Haian Huang Yining Li Kai Chen Hua Yang VLM MLLM 45 10 0 25 Jun 2024
ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback Ju-Seung Byun Jiyun Chun Jihyung Kil Andrew Perrault ReLM LRM 39 1 0 25 Jun 2024
Leveraging LLMs for Dialogue Quality Measurement Jinghan Jia A. Komma Timothy Leffel Xujun Peng Ajay Nagesh Tamer Soliman Aram Galstyan Anoop Kumar 36 5 0 25 Jun 2024
DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution Aiwen Jiang Zhi Wei Long Peng Feiqiang Liu Wenbo Li Mingwen Wang DiffM 54 2 0 24 Jun 2024
Compensate Quantization Errors: Make Weights Hierarchical to Compensate Each Other Yifei Gao Jie Ou Lei Wang Yuting Xiao Zhiyuan Xiang Ruiting Dai Jun Cheng MQ 36 3 0 24 Jun 2024
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception Guanqun Wang Xinyu Wei Jiaming Liu Ray Zhang Yichi Zhang Kevin Zhang Maurice Chong Shanghang Zhang VLM LRM 46 0 0 22 Jun 2024
Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning Brandon Huang Chancharik Mitra Assaf Arbelle Leonid Karlinsky Trevor Darrell Roei Herzig 46 13 0 21 Jun 2024
Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video Zhengbang Yang Haotian Xia Jingxi Li Zezhi Chen Zhuangdi Zhu Weining Shen ELM LRM 47 1 0 21 Jun 2024
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding Xinyu Fang Kangrui Mao Haodong Duan Xiangyu Zhao Yining Li Dahua Lin Kai Chen VLM 57 61 0 20 Jun 2024
Dye4AI: Assuring Data Boundary on Generative AI Services Shu Wang Kun Sun Yan Zhai 42 1 0 20 Jun 2024
Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM Huaxin Zhang Xiaohao Xu Xiang Wang Jialong Zuo Chuchu Han Xiaonan Huang Changxin Gao Yuehuan Wang Nong Sang 60 16 0 18 Jun 2024
VoCo-LLaMA: Towards Vision Compression with Large Language Models Xubing Ye Yukang Gan Xiaoke Huang Yixiao Ge Yansong Tang MLLM VLM 43 22 0 18 Jun 2024
LLaNA: Large Language and NeRF Assistant Andrea Amaduzzi Pierluigi Zama Ramirez Giuseppe Lisanti Samuele Salti Luigi Di Stefano 44 2 0 17 Jun 2024
AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation Chuyan Xiong Chengyu Shen Xiaoqi Li Kaichen Zhou Jiaming Liu Ruiping Wang Hao Dong LRM 34 10 0 17 Jun 2024
VideoVista: A Versatile Benchmark for Video Understanding and Reasoning Yunxin Li Xinyu Chen Baotian Hu Longyue Wang Haoyuan Shi Min-Ling Zhang MLLM LRM 53 25 0 17 Jun 2024
Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning Zebang Cheng Zhi-Qi Cheng Jun-Yan He Jingdong Sun Kai Wang Yuxiang Lin Zheng Lian Xiaojiang Peng Alexander G. Hauptmann MLLM 31 29 0 17 Jun 2024
Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags Daiqing Qi Handong Zhao Zijun Wei Sheng Li 46 2 0 16 Jun 2024
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models Chenyu Zhou Mengdan Zhang Peixian Chen Chaoyou Fu Yunhang Shen Xiawu Zheng Xing Sun Rongrong Ji VLM 25 3 0 14 Jun 2024
VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding Muhammad Maaz H. Rasheed Salman Khan Fahad A Khan VLM MLLM 37 49 0 13 Jun 2024
MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding Fei Wang Xingyu Fu James Y. Huang Zekun Li Qin Liu ... Kai-Wei Chang Dan Roth Sheng Zhang Hoifung Poon Muhao Chen VLM 50 47 0 13 Jun 2024
Yo'LLaVA: Your Personalized Language and Vision Assistant Thao Nguyen Haotian Liu Yuheng Li Mu Cai Utkarsh Ojha Yong Jae Lee VLM MLLM 62 15 0 13 Jun 2024
Comparison Visual Instruction Tuning Wei Lin M. Jehanzeb Mirza Sivan Doveh Rogerio Feris Raja Giryes Sepp Hochreiter Leonid Karlinsky 46 4 0 13 Jun 2024
INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance Chenwei Lin Hanjia Lyu Xian Xu Jiebo Luo 38 1 0 13 Jun 2024
Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams Haoji Zhang Yiqin Wang Yansong Tang Yong-Jin Liu Jiashi Feng Jifeng Dai Xiaojie Jin 45 38 0 12 Jun 2024
Fewer Tokens and Fewer Videos: Extending Video Understanding Abilities in Large Vision-Language Models Shimin Chen Yitian Yuan Shaoxiang Chen Zequn Jie Lin Ma VLM 32 3 0 12 Jun 2024
Instruct Large Language Models to Drive like Humans Ruijun Zhang Xianda Guo Wenzhao Zheng Chenming Zhang Kurt Keutzer Long Chen 34 3 0 11 Jun 2024
Needle In A Multimodal Haystack Weiyun Wang Shuibo Zhang Yiming Ren Yuchen Duan Tiantong Li ... Ping Luo Yu Qiao Jifeng Dai Wenqi Shao Wenhai Wang VLM 59 17 0 11 Jun 2024
AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning Jun Gao Qian Qiao Ziqiang Cao Zili Wang Wenjie Li 34 3 0 11 Jun 2024
TRINS: Towards Multimodal Language Models that Can Read Ruiyi Zhang Yanzhe Zhang Jian Chen Yufan Zhou Jiuxiang Gu Changyou Chen Tong Sun VLM 33 6 0 10 Jun 2024
Evaluating Zero-Shot Long-Context LLM Compression Chenyu Wang Yihan Wang Kai Li 51 0 0 10 Jun 2024
Creating an AI Observer: Generative Semantic Workspaces Pavan Holur Shreyas Rajesh David Chong V. Roychowdhury 28 0 0 07 Jun 2024
RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation Jiaming Liu Mengzhen Liu Zhenyu Wang Lily Lee Kaichen Zhou Pengju An Senqiao Yang Renrui Zhang Yandong Guo Shanghang Zhang LM&Ro LRM Mamba 32 5 0 06 Jun 2024
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions Lin Chen Xilin Wei Jinsong Li Xiaoyi Dong Pan Zhang ... Li Yuan Yu Qiao Dahua Lin Feng Zhao Jiaqi Wang 74 142 0 06 Jun 2024
AD-H: Autonomous Driving with Hierarchical Agents Zaibin Zhang Shiyu Tang Yuanhang Zhang Talas Fu Yifan Wang Yang Liu Dong Wang Jing Shao Lijun Wang H. Lu 52 3 0 05 Jun 2024
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM Tao Yang Yingmin Luo Zhongang Qi Yang Wu Ying Shan Chang Wen Chen 3DV MLLM 36 8 0 05 Jun 2024
Multi-layer Learnable Attention Mask for Multimodal Tasks Wayner Barrios SouYoung Jin 39 0 0 04 Jun 2024
Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller Min Cai Yuchen Zhang Shichang Zhang Fan Yin Difan Zou Yisong Yue Ziniu Hu 30 0 0 04 Jun 2024