v1v2v3v4 (latest)

VizWiz Grand Challenge: Answering Visual Questions from Blind People

22 February 2018

Papers citing "VizWiz Grand Challenge: Answering Visual Questions from Blind People"

50 / 573 papers shown

Title
LaVi: Efficient Large Vision-Language Models via Internal Feature Modulation Tongtian Yue Longteng Guo Yepeng Tang Zijia Zhao Xinxin Zhu Hua Huang Jing Liu MLLM VLM 21 0 0 20 Jun 2025
Demystifying the Visual Quality Paradox in Multimodal Large Language Models Shuo Xing Lanqing guo Hongyuan Hua Seoyoung Lee Peiran Li Yufei Wang Zhangyang Wang Zhengzhong Tu VLM 47 0 0 18 Jun 2025
FinLMM-R1: Enhancing Financial Reasoning in LMM through Scalable Data and Reward Design Kai Lan Jiayong Zhu Jiangtong Li Dawei Cheng Guang-Sheng Chen Changjun Jiang LRM 24 0 0 16 Jun 2025
Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence Yibo Yang Sihao Liu Chuan Rao Bang An Tiancheng Shen Philip Torr Ming-Hsuan Yang Bernard Ghanem 27 0 0 16 Jun 2025
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model Shaolei Zhang Shoutao Guo Qingkai Fang Yan Zhou Yang Feng MLLM AuLLM VLM 68 0 0 16 Jun 2025
Dynamic Mixture of Curriculum LoRA Experts for Continual Multimodal Instruction Tuning Chendi Ge Xin Eric Wang Zeyang Zhang Hong Chen Jiapei Fan Longtao Huang Hui Xue Wenwu Zhu MoE CLL 47 0 0 13 Jun 2025
Foundation Models in Autonomous Driving: A Survey on Scenario Generation and Scenario Analysis Yuan Gao Mattia Piccinini Yuchen Zhang Dingrui Wang Korbinian Moller ... Steven Peters Andrea Stocco Bassam Alrifaee Marco Pavone Johannes Betz 25 0 0 13 Jun 2025
Pisces: An Auto-regressive Foundation Model for Image Understanding and Generation Zhiyang Xu Jiuhai Chen Zhaojiang Lin Xichen Pan Lifu Huang ... Di Jin Michihiro Yasunaga Lili Yu Xi Lin Shaoliang Nie 121 1 0 12 Jun 2025
Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs Qizhe Zhang Mengzhen Liu Lichen Li Ming Lu Yuan Zhang Junwen Pan Qi She Shanghang Zhang VLM 128 0 0 12 Jun 2025
Low-resource domain adaptation while minimizing energy and hardware resource consumption Hernán Maina Nicolás Wolovick Luciana Benotti 34 0 0 10 Jun 2025
An Open-Source Software Toolkit & Benchmark Suite for the Evaluation and Adaptation of Multimodal Action Models Pranav Guruprasad Yangyue Wang Sudipta Chowdhury Jaewoo Song Harshvardhan Sikka 39 0 0 10 Jun 2025
TextVidBench: A Benchmark for Long Video Scene Text Understanding Yangyang Zhong Ji Qi Yuan Yao Pengxin Luo Yunfeng Yan Donglian Qi Zhiyuan Liu Tat-Seng Chua 99 0 0 05 Jun 2025
ROSA: Addressing text understanding challenges in photographs via ROtated SAmpling Hernán Maina Guido Ivetta Mateo Lione Stuto Julian Martin Eisenschlos Jorge Sánchez Luciana Benotti 73 0 0 04 Jun 2025
Taming LLMs by Scaling Learning Rates with Gradient Grouping Siyuan Li Juanxi Tian Zedong Wang Xin Jin Zicheng Liu Wentao Zhang Dan Xu 46 0 0 01 Jun 2025
Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question Answering Songtao Jiang Chenyi Zhou Yan Zhang Yeying Jin Zuozhu Liu LRM 33 1 0 01 Jun 2025
Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection Shivam Chandhok Qian Yang Oscar Manas Kanishk Jain Leonid Sigal Aishwarya Agrawal 39 0 0 01 Jun 2025
Enhancing Multimodal Continual Instruction Tuning with BranchLoRA Duzhen Zhang Yong Ren Zhong-Zhi Li Yahan Yu Jiahua Dong Chenxing Li Zhilong Ji Jinfeng Bai CLL 55 1 0 31 May 2025
Benchmarking Foundation Models for Zero-Shot Biometric Tasks Redwan Sony Parisa Farmanifard Hamzeh Alzwairy Nitish Shukla Arun Ross CVBM VLM 58 0 0 30 May 2025
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces Gen Luo Ganlin Yang Ziyang Gong Guanzhou Chen Haonan Duan ... Wenhai Wang Jifeng Dai Yu Qiao Rongrong Ji X. Zhu LM&Ro 39 1 0 30 May 2025
Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation Jihai Zhang Tianle Li Linjie Li Zhengyuan Yang Yu Cheng 70 1 0 29 May 2025
NegVQA: Can Vision Language Models Understand Negation? Yuhui Zhang Yuchang Su Yiming Liu Serena Yeung-Levy MLLM CoGe 50 0 0 28 May 2025
Zero-Shot Vision Encoder Grafting via LLM Surrogates Kaiyu Yue Vasu Singla Menglin Jia John Kirchenbauer Rifaa Qadri Zikui Cai A. Bhatele Furong Huang Tom Goldstein VLM 70 0 0 28 May 2025
VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models Ce Zhang Kaixin Ma Tianqing Fang Wenhao Yu Hongming Zhang Zhisong Zhang Yaqi Xie Katia Sycara Haitao Mi Dong Yu VLM 100 0 0 28 May 2025
Decomposing Complex Visual Comprehension into Atomic Visual Skills for Vision Language Models Hyunsik Chae Seungwoo Yoon J. Park Chloe Yewon Chun Yongin Cho Mu Cai Yong Jae Lee Ernest K. Ryu CoGe VLM 58 3 0 26 May 2025
Causal-LLaVA: Causal Disentanglement for Mitigating Hallucination in Multimodal Large Language Models Xinmiao Hu C. Wang Ruihe An ChenYu Shao Xiaojun Ye Sheng Zhou Liangcheng Li MLLM LRM 65 0 0 26 May 2025
ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models Duo Li Zuhao Yang Shijian Lu VLM 98 0 0 24 May 2025
Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM Donghwan Chi Hyomin Kim Yoonjin Oh Yongjin Kim Donghoon Lee DaeJin Jo Jongmin Kim Junyeob Baek Sungjin Ahn Sungwoong Kim MLLM VLM 486 0 0 23 May 2025
Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models Runsen Xu Weiyao Wang Hao Tang Xingyu Chen Xiaodong Wang Fu-Jen Chu Dahua Lin Matt Feiszli Kevin J. Liang LRM 115 1 0 22 May 2025
Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding Feilong Tang Chengzhi Liu Zhongxing Xu Ming Hu Zelin Peng ... Minquan Lin Yifan Peng Xuelian Cheng Imran Razzak Zongyuan Ge 76 1 0 22 May 2025
CAMA: Enhancing Multimodal In-Context Learning with Context-Aware Modulated Attention Yanshu Li JianJiang Yang Bozheng Li Ruixiang Tang 68 2 0 21 May 2025
TACO: Enhancing Multimodal In-context Learning via Task Mapping-Guided Sequence Configuration Yanshu Li Tian Yun Jianjiang Yang Pinyuan Feng Jinfa Huang Ruixiang Tang 69 2 0 21 May 2025
Multi-Modality Expansion and Retention for LLMs through Parameter Merging and Decoupling Junlin Li Guodong DU Jing Li Sim Kuan Goh Wenya Wang ... Fangming Liu Jing Li Saleh Alharbi Daojing He Min Zhang MoMe CLL 141 1 0 21 May 2025
Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels Yongshuo Zong Qin Zhang Dongsheng An Zhihua Li Xiang Xu Linghan Xu Zhuowen Tu Yifan Xing Onkar Dabeer ObjD 96 0 0 20 May 2025
VoQA: Visual-only Question Answering Luyang Jiang Jianing An Jie Luo Wenjun Wu Lei Huang LRM 103 0 0 20 May 2025
STAR: Stage-Wise Attention-Guided Token Reduction for Efficient Large Vision-Language Models Inference Yichen Guo Hanze Li Zonghao Zhang Jinhao You Kai Tang Xiande Huang VLM 87 0 0 18 May 2025
Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models Kai Tang Jinhao You Xiuqi Ge Hanze Li Yichen Guo Xiande Huang MLLM 173 0 0 18 May 2025
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning Bonan li Zicheng Zhang Songhua Liu Weihao Yu Xinchao Wang VLM 142 0 0 17 May 2025
Visual Planning: Let's Think Only with Images Yi Xu Chengzu Li Han Zhou Xingchen Wan Caiqi Zhang Anna Korhonen Ivan Vulić LM&Ro LRM 165 1 0 16 May 2025
Task-Core Memory Management and Consolidation for Long-term Continual Learning Tianyu Huai Jie Zhou Yuxuan Cai Qin Chen Wen Wu Xingjiao Wu Xipeng Qiu Liang He CLL 94 0 0 15 May 2025
Seeing Beyond the Scene: Enhancing Vision-Language Models with Interactional Reasoning Dayong Liang Changmeng Zheng Zhiyuan Wen Yi Cai Xiao Wei Qing Li LRM 49 0 0 14 May 2025
Visual Instruction Tuning with Chain of Region-of-Interest Yixin Chen Shuai Zhang Boran Han Bernie Wang 84 0 0 11 May 2025
X-Transfer Attacks: Towards Super Transferable Adversarial Attacks on CLIP Hanxun Huang Sarah Monazam Erfani Yige Li Xingjun Ma James Bailey AAML 164 1 0 08 May 2025
SEFE: Superficial and Essential Forgetting Eliminator for Multimodal Continual Instruction Tuning Jinpeng Chen Runmin Cong Yuzhi Zhao Hongzheng Yang Guangneng Hu H. Ip Sam Kwong CLL KELM 135 2 0 05 May 2025
VCM: Vision Concept Modeling Based on Implicit Contrastive Learning with Vision-Language Instruction Fine-Tuning Run Luo Renke Shan Longze Chen Ziqiang Liu Lu Wang Min Yang Xiaobo Xia MLLM VLM 262 1 0 28 Apr 2025
Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens Kaihang Pan Wang Lin Zhongqi Yue Tenglong Ao Liyu Jia Wei Zhao Juncheng Billy Li Siliang Tang Hanwang Zhang 104 8 0 20 Apr 2025
Learning from Reasoning Failures via Synthetic Data Generation Gabriela Ben-Melech Stan Estelle Aflalo Avinash Madasu Vasudev Lal Phillip Howard SyDa LRM 135 0 0 20 Apr 2025
QAVA: Query-Agnostic Visual Attack to Large Vision-Language Models Yudong Zhang Ruobing Xie Jiansheng Chen Xingwu Sun Zhanhui Kang Yu Wang AAML 86 1 0 15 Apr 2025
MIEB: Massive Image Embedding Benchmark Chenghao Xiao Isaac Chung Imene Kerboua Jamie Stirling Xin Zhang Márton Kardos Roman Solomatin Noura Al Moubayed Kenneth Enevoldsen Niklas Muennighoff VLM 150 2 0 14 Apr 2025
FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding Zheng Liu Mengjie Liu Jianfei Chen Jingwei Xu Tengjiao Wang Zeang Sheng Wentao Zhang MLLM 153 1 0 14 Apr 2025
Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? Yanbo Wang Jiyang Guan Jian Liang Ran He 132 0 0 14 Apr 2025