Visual Instruction Tuning

17 April 2023

Papers citing "Visual Instruction Tuning"

50 / 3,277 papers shown

Title
FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics Yixuan Li Yu Tian Yipo Huang Wei Lu Shiqi Wang Weisi Lin Anderson de Rezende Rocha 70 0 0 31 Mar 2025
ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models Guoyizhe Wei Rama Chellappa 48 0 0 30 Mar 2025
CA^2ST: Cross-Attention in Audio, Space, and Time for Holistic Video Recognition Jongseo Lee Joohyun Chang Dongho Lee Jinwoo Choi 56 0 0 30 Mar 2025
Physically Ground Commonsense Knowledge for Articulated Object Manipulation with Analytic Concepts Jianhua Sun Jiude Wei Yong Li Cewu Lu LM&Ro 61 1 0 30 Mar 2025
ViLAaD: Enhancing "Attracting and Dispersing'' Source-Free Domain Adaptation with Vision-and-Language Model Shuhei Tarashima Xinqi Shu Norio Tagawa VLM 53 0 0 30 Mar 2025
ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning Zhenyang Liu Yikai Wang Sixiao Zheng Tongying Pan Longfei Liang Yanwei Fu Xiangyang Xue LRM 54 0 0 30 Mar 2025
EagleVision: Object-level Attribute Multimodal LLM for Remote Sensing Hongxiang Jiang Jihao Yin Qixiong Wang Jiaqi Feng Guo Chen 55 0 0 30 Mar 2025
From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D Jiahui Zhang Yurui Chen Yanpeng Zhou Yueming Xu Ze Huang ... Xinyue Cai G. Huang Xingyue Quan Hang Xu Li Zhang LRM 100 0 0 29 Mar 2025
Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs Sanjoy Chowdhury Hanan Gani Nishit Anand Sayan Nag Ruohan Gao Mohamed Elhoseiny Salman Khan Dinesh Manocha LRM 59 0 0 29 Mar 2025
Empowering Large Language Models with 3D Situation Awareness Zhihao Yuan Yibo Peng Jinke Ren Yinghong Liao Yatong Han Chun-Mei Feng Hengshuang Zhao G. Li Shuguang Cui Zhen Li 51 0 0 29 Mar 2025
A large-scale image-text dataset benchmark for farmland segmentation Chao Tao Dandan Zhong Weiliang Mu Zhuofei Du Haiyang Wu 44 0 0 29 Mar 2025
RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning Alexander Vogel Omar Moured Yufan Chen Jiaming Zhang Rainer Stiefelhagen 37 0 0 29 Mar 2025
How Well Can Vison-Language Models Understand Humans' Intention? An Open-ended Theory of Mind Question Evaluation Benchmark Ximing Wen Mallika Mainali Anik Sen 42 0 0 28 Mar 2025
Q-Insight: Understanding Image Quality via Visual Reinforcement Learning Weiqi Li X. Zhang Shijie Zhao Yuyao Zhang Junlin Li Li Zhang Jian Zhang 50 3 0 28 Mar 2025
Learning to Instruct for Visual Instruction Tuning Zhihan Zhou Feng Hong Jiaan Luo Jiangchao Yao Dongsheng Li Bo Han Yuyao Zhang Yanfeng Wang VLM 73 0 0 28 Mar 2025
Agent-Centric Personalized Multiple Clustering with Multi-Modal LLMs Ziye Chen Yiqun Duan Riheng Zhu Zhenbang Sun Biwei Huang 45 0 0 28 Mar 2025
Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis J. Huang Baoxiong Jia Yansen Wang Ziyu Zhu Xiongkun Linghu Qing Li Song-Chun Zhu Siyuan Huang 87 3 0 28 Mar 2025
NuGrounding: A Multi-View 3D Visual Grounding Framework in Autonomous Driving Fuhao Li Huan Jin Bin-Bin Gao Liaoyuan Fan Lihui Jiang Long Zeng 66 0 0 28 Mar 2025
Make Some Noise: Towards LLM audio reasoning and generation using sound tokens Shivam Mehta Nebojsa Jojic Hannes Gamper 31 0 0 28 Mar 2025
Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions Mohammad Almansoori Kemal Kurniawan Hisham Cholakkal 212 0 0 28 Mar 2025
A Survey on Remote Sensing Foundation Models: From Vision to Multimodality Ziyue Huang Hongxi Yan Qiqi Zhan Shuai Yang Mingming Zhang Yiming Lei Chenkai Zhang Zeming Liu Qingjie Liu Yansen Wang 54 0 0 28 Mar 2025
DeepSound-V1: Start to Think Step-by-Step in the Audio Generation from Videos Yunming Liang Zihao Chen Chaofan Ding Xinhan Di DiffM VGen 62 0 0 28 Mar 2025
SIGHT: Single-Image Conditioned Generation of Hand Trajectories for Hand-Object Interaction Alexey Gavryushin Florian Redhardt Gaia Di Lorenzo Luc Van Gool Marc Pollefeys Kaichun Mo Xi Wang 47 0 0 28 Mar 2025
Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities Raman Dutt Harleen Hanspal Guoxuan Xia Petru-Daniel Tudosiu Alexander Black Yongxin Yang Jingyu Sun Sarah Parisot MoE 43 0 0 28 Mar 2025
ORIGEN: Zero-Shot 3D Orientation Grounding in Text-to-Image Generation Yunhong Min Daehyeon Choi Kyeongmin Yeo Jihyun Lee Minhyuk Sung 56 0 0 28 Mar 2025
FaceBench: A Multi-View Multi-Level Facial Attribute VQA Dataset for Benchmarking Face Perception MLLMs Xiaoqin Wang Xusen Ma Xianxu Hou Meidan Ding Yudong Li Junliang Chen Wenting Chen Xiaoyang Peng LinLin Shen CVBM 73 0 0 27 Mar 2025
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models Qingqing Zhao Yao Lu Moo Jin Kim Zipeng Fu Zhuoyang Zhang ... Ankur Handa Xuan Li Donglai Xiang Gordon Wetzstein Nayeon Lee LM&Ro LRM 53 15 0 27 Mar 2025
LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models Hengyuan Zhao Ziqin Wang Qixin Sun Kaiyou Song Yilin Li Xiaolin Hu Qingpei Guo Si Liu KELM CLL MoE 70 0 0 27 Mar 2025
CTRL-O: Language-Controllable Object-Centric Visual Representation Learning Aniket Didolkar Andrii Zadaianchuk Rabiul Awal Maximilian Seitzer E. Gavves Aishwarya Agrawal OCL VLM 94 2 0 27 Mar 2025
Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model Abdelrahman M. Shaker Muhammad Maaz Chenhui Gou Hamid Rezatofighi Salman Khan Fahad Shahbaz Khan 222 0 0 27 Mar 2025
Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving Yue Li Meng Tian Zhenyu Lin Jiangtong Zhu Dechang Zhu Haiqiang Liu Zining Wang Yueyi Zhang Zhiwei Xiong Xinhai Zhao CoGe VLM 90 1 0 27 Mar 2025
3DGen-Bench: Comprehensive Benchmark Suite for 3D Generative Models Yuyao Zhang Mengchen Zhang Tong Wu Tengfei Wang Gordon Wetzstein Dahua Lin Ziwei Liu ELM 79 0 0 27 Mar 2025
Online Reasoning Video Segmentation with Just-in-Time Digital Twins Yiqing Shen Bohan Liu Chenjia Li Lalithkumar Seenivasan Mathias Unberath VOS 83 2 0 27 Mar 2025
InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression Dongchen Lu Yuyao Sun Zilu Zhang Leping Huang Jianliang Zeng Mao Shu Huo Cao 44 0 0 27 Mar 2025
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation Size Wu Feiyu Xiong Lumin Xu Sheng Jin Zhonghua Wu Qingyi Tao Wentao Liu Wei Li Chen Change Loy VGen 230 2 0 27 Mar 2025
FakeReasoning: Towards Generalizable Forgery Detection and Reasoning Y. Gao Dongliang Chang Bingyao Yu Haotian Qin Lei Chen Kongming Liang Zhanyu Ma 56 0 0 27 Mar 2025
StarFlow: Generating Structured Workflow Outputs From Sketch Images Patrice Bechard Chao Wang Amirhossein Abaskohi Juan A. Rodriguez Christopher Pal David Vazquez Spandana Gella Sai Rajeswar Perouz Taslakian 38 0 0 27 Mar 2025
Fwd2Bot: LVLM Visual Token Compression with Double Forward Bottleneck Adrian Bulat Yassine Ouali Georgios Tzimiropoulos 232 0 0 27 Mar 2025
On Large Multimodal Models as Open-World Image Classifiers Alessandro Conti Massimiliano Mancini Enrico Fini Yiming Wang Paolo Rota Elisa Ricci VLM Presented at ResearchTrend Connect \| VLM on 07 May 2025 89 0 0 27 Mar 2025
Beyond Intermediate States: Explaining Visual Redundancy through Language Dingchen Yang Bowen Cao Anran Zhang Weibo Gu Winston Hu Guang Chen VLM 79 0 0 26 Mar 2025
Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector Xiao Guo Xiufeng Song Yue Zhang Xiaohong Liu X. Liu 63 1 0 26 Mar 2025
GLRD: Global-Local Collaborative Reason and Debate with PSL for 3D Open-Vocabulary Detection Xingyu Peng Si Liu Chen Gao Yan Bai Beipeng Mu Xiaofei Wang Huaxia Xia 67 0 0 26 Mar 2025
ScreenLLM: Stateful Screen Schema for Efficient Action Understanding and Prediction Yiqiao Jin Stefano Petrangeli Yu Shen Gang Wu LLMAG LM&Ro 244 0 0 26 Mar 2025
From Trial to Triumph: Advancing Long Video Understanding via Visual Context Sample Scaling and Self-reward Alignment Yucheng Suo Fan Ma Linchao Zhu T. Wang Fengyun Rao Yi Yang LRM 79 0 0 26 Mar 2025
Operating Room Workflow Analysis via Reasoning Segmentation over Digital Twins Yiqing Shen Chenjia Li Bohan Liu Cheng-Yi Li Tito Porras Mathias Unberath 62 2 0 26 Mar 2025
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning Yiwei Ma Guohai Xu Xiaoshuai Sun Jiayi Ji Jie Lou Debing Zhang Rongrong Ji 97 0 0 26 Mar 2025
Vision as LoRA Han Wang Yongjie Ye Bingru Li Yuxiang Nie Jinghui Lu Jingqun Tang Yanjie Wang Can Huang 90 2 0 26 Mar 2025
Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping Weili Zeng Ziyuan Huang Kaixiang Ji Yichao Yan VLM 50 1 0 26 Mar 2025
Qwen2.5-Omni Technical Report Jin Xu Zhifang Guo Jinzheng He Hangrui Hu Ting He ... K. Dang Bin Zhang Xinyu Wang Yunfei Chu Junyang Lin VGen AuLLM 96 16 0 26 Mar 2025
Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy Joonhyun Jeong Seyun Bae Yeonsung Jung Jaeryong Hwang Eunho Yang AAML 47 1 0 26 Mar 2025