Geometric Analysis of Reasoning Trajectories: A Phase Space Approach to Understanding Valid and Invalid Multi-Hop Reasoning in LLMs

6 October 2024

Javier Marin

Papers citing "Geometric Analysis of Reasoning Trajectories: A Phase Space Approach to Understanding Valid and Invalid Multi-Hop Reasoning in LLMs"

50 / 77 papers shown

Title
VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models Ce Zhang Kaixin Ma Tianqing Fang Wenhao Yu Hongming Zhang Zhisong Zhang Yaqi Xie Katia Sycara Haitao Mi Dong Yu VLM 54 0 0 28 May 2025
ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models Duo Li Zuhao Yang Shijian Lu VLM 60 0 0 24 May 2025
Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM Penghao Wu Lewei Lu Ziwei Liu 96 0 0 21 May 2025
Video Compression Commander: Plug-and-Play Inference Acceleration for Video Large Language Models Xuyang Liu Yiyu Wang Junpeng Ma Linfeng Zhang VLM 39 0 0 20 May 2025
STAR: Stage-Wise Attention-Guided Token Reduction for Efficient Large Vision-Language Models Inference Yichen Guo Hanze Li Zonghao Zhang Jinhao You Kai Tang Xiande Huang VLM 72 0 0 18 May 2025
VCM: Vision Concept Modeling Based on Implicit Contrastive Learning with Vision-Language Instruction Fine-Tuning Run Luo Renke Shan Longze Chen Ziqiang Liu Lu Wang Min Yang Xiaobo Xia MLLM VLM 234 1 0 28 Apr 2025
Token Sequence Compression for Efficient Multimodal Computing Yasmine Omri Parth Shroff Thierry Tambe 77 0 0 24 Apr 2025
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs Zehao Wang Senthil Purushwalkam Caiming Xiong Siyang Song Chenhui Xu Ran Xu 134 2 0 23 Apr 2025
LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation Hanning Chen Yang Ni Wenjun Huang Hyunwoo Oh Yezi Liu Tamoghno Das Mohsen Imani VLM LRM 79 0 0 15 Apr 2025
Window Token Concatenation for Efficient Visual Large Language Models Yifan Li Wentao Bao Botao Ye Zhen Tan Tianlong Chen Huan Liu Yu Kong VLM 84 0 0 05 Apr 2025
TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding Junwen Pan Rui Zhang Xin Wan Yuan Zhang Ming Lu Qi She VLM 72 1 0 02 Apr 2025
QG-VTC: Question-Guided Visual Token Compression in MLLMs for Efficient VQA Shuai Li Jian Xu Xiao-Hui Li Chao Deng Lin-Lin Huang MQ 78 1 0 01 Apr 2025
On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices Bosung Kim Kyuhwan Lee Isu Jeong Jungmin Cheon Yeojin Lee Seulki Lee VGen 91 0 0 31 Mar 2025
InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression Dongchen Lu Yuyao Sun Zilu Zhang Leping Huang Jianliang Zeng Mao Shu Huo Cao 126 2 0 27 Mar 2025
MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation Rongyu Zhang Menghang Dong Yuan Zhang Liang Heng Xiaowei Chi Gaole Dai Li Du Dan Wang Yuan Du MoE 135 2 0 26 Mar 2025
Beyond Intermediate States: Explaining Visual Redundancy through Language Dingchen Yang Bowen Cao Anran Zhang Weibo Gu Winston Hu Guang Chen VLM 116 0 0 26 Mar 2025
Scaling Vision Pre-Training to 4K Resolution Baifeng Shi Boyi Li Han Cai Yaojie Lu Sifei Liu ... Jan Kautz Enze Xie Trevor Darrell Pavlo Molchanov Hongxu Yin CLIP 385 0 0 25 Mar 2025
Growing a Twig to Accelerate Large Vision-Language Models Zhenwei Shao Mingyang Wang Zhou Yu Wenwen Pan Yan Yang Tao Wei Hao Zhang Ning Mao Wei Chen Jun Yu VLM 88 2 0 18 Mar 2025
AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding Xiao Wang Qingyi Si Jianlong Wu Shiyu Zhu Zheng Lin Liqiang Nie VLM 119 7 0 16 Mar 2025
FastVID: Dynamic Density Pruning for Fast Video Large Language Models Leqi Shen Guoqiang Gong Tao He Yifeng Zhang Pengzhang Liu Sicheng Zhao Guiguang Ding VLM 98 2 0 14 Mar 2025
Similarity-Aware Token Pruning: Your VLM but Faster Ahmadreza Jeddi Negin Baghbanzadeh Elham Dolatabadi Babak Taati 3DV VLM 103 2 0 14 Mar 2025
TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models Xudong Tan Peng Ye Chongjun Tu Jianjian Cao Yaoxin Yang Lin Zhang Dongzhan Zhou Tao Chen VLM 137 2 0 13 Mar 2025
VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers Ruanjun Li Yuedong Tan Yuanming Shi Jiawei Shao VLM 338 0 0 12 Mar 2025
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning Junwei Luo Yingying Zhang Xiaoyu Yang Kang Wu Qi Zhu Lei Liang Jingdong Chen Yansheng Li 124 1 0 10 Mar 2025
Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding Wenxuan Song Jiayi Chen Pengxiang Ding Han Zhao Wei Zhao Zhide Zhong Zongyuan Ge Jun Ma Haoang Li 97 5 0 04 Mar 2025
FCoT-VL:Advancing Text-oriented Large Vision-Language Models with Efficient Visual Token Compression Jianjian Li Junquan Fan Feng Tang Gang Huang Shitao Zhu Songlin Liu Nian Xie Wulong Liu Yong Liao VLM 77 0 0 22 Feb 2025
Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem? Zichen Wen Yifeng Gao Weijia Li Conghui He Linfeng Zhang LRM 118 3 0 17 Feb 2025
FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance Haicheng Wang Zhemeng Yu Gabriele Spadaro Chen Ju Victor Quétu Enzo Tartaglione Enzo Tartaglione VLM 364 6 0 05 Jan 2025
ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding Xiao Wang Qingyi Si Jianlong Wu Shiyu Zhu Zheng Lin Liqiang Nie VLM 124 7 0 29 Dec 2024
A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs Wangbo Zhao Yizeng Han Jiasheng Tang Zechao Li Yibing Song Kaidi Wang Zhangyang Wang Yang You 148 9 0 04 Dec 2024
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning Yiwu Zhong Zhuoming Liu Yin Li Liwei Wang 115 7 0 04 Dec 2024
ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models Xubing Ye Yukang Gan Yixiao Ge Xiao Zhang Yansong Tang 144 9 0 30 Nov 2024
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction Long Xing Qidong Huang Xiaoyi Dong Jiajie Lu Pan Zhang ... Yuhang Cao Zeang Sheng Jiaqi Wang Feng Wu Dahua Lin VLM 105 41 0 22 Oct 2024
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation Shiwei Wu Joya Chen Kevin Qinghong Lin Qimeng Wang Yan Gao Qianli Xu Tong Xu Yao Hu Enhong Chen Mike Zheng Shou VLM 71 14 0 29 Aug 2024
TCFormer: Visual Recognition via Token Clustering Transformer Wang Zeng Sheng Jin Lumin Xu Wentao Liu Chao Qian Wanli Ouyang Ping Luo Xiaogang Wang 63 4 0 16 Jul 2024
LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression Jieneng Chen Luoxin Ye Ju He Zhao-Yang Wang Daniel Khashabi Alan Yuille VLM 51 5 0 28 Jun 2024
VoCo-LLaMA: Towards Vision Compression with Large Language Models Xubing Ye Yukang Gan Xiaoke Huang Yixiao Ge Yansong Tang MLLM VLM 81 25 0 18 Jun 2024
DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models Linli Yao Lei Li Shuhuai Ren Lean Wang Yuanxin Liu Xu Sun Lu Hou 62 33 0 31 May 2024
Matryoshka Multimodal Models Mu Cai Jianwei Yang Jianfeng Gao Yong Jae Lee VLM 86 31 0 27 May 2024
Decomposing the Neurons: Activation Sparsity via Mixture of Experts for Continual Test Time Adaptation Rongyu Zhang Aosong Cheng Yulin Luo Gaole Dai Huanrui Yang ... Ran Xu Li Du Yuan Du Yanbing Jiang Shanghang Zhang MoE TTA 78 6 0 26 May 2024
Unveiling the Tapestry of Consistency in Large Vision-Language Models Yuan Zhang Fei Xiao Tao Huang Chun-Kai Fan Hongyuan Dong Jiawen Li Jiacong Wang Kuan Cheng Shanghang Zhang Haoyuan Guo 97 10 0 23 May 2024
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models Yanwei Li Yuechen Zhang Chengyao Wang Zhisheng Zhong Yixin Chen Ruihang Chu Shaoteng Liu Jiaya Jia VLM MLLM MoE 90 228 0 27 Mar 2024
LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models Yuzhang Shang Mu Cai Bingxin Xu Yong Jae Lee Yan Yan VLM 110 122 0 22 Mar 2024
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models Liang Chen Haozhe Zhao Tianyu Liu Shuai Bai Junyang Lin Chang Zhou Baobao Chang MLLM VLM 93 139 0 11 Mar 2024
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism DeepSeek-AI Xiao Bi : Xiao Bi Deli Chen Guanting Chen ... Yao Zhao Shangyan Zhou Shunfeng Zhou Qihao Zhu Yuheng Zou LRM ALM 190 364 0 05 Jan 2024
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Zhe Chen Jiannan Wu Wenhai Wang Weijie Su Guo Chen ... Bin Li Ping Luo Tong Lu Yu Qiao Jifeng Dai VLM MLLM 247 1,126 0 21 Dec 2023
VideoPoet: A Large Language Model for Zero-Shot Video Generation Dan Kondratyuk Lijun Yu Xiuye Gu José Lezama Jonathan Huang ... Irfan Essa Huisheng Wang David A. Ross Bryan Seybold Lu Jiang VGen 101 260 0 21 Dec 2023
Honeybee: Locality-enhanced Projector for Multimodal LLM Junbum Cha Wooyoung Kang Jonghwan Mun Byungseok Roh MLLM 75 127 0 11 Dec 2023
LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models Yanwei Li Chengyao Wang Jiaya Jia VLM MLLM 80 283 0 28 Nov 2023
FreeKD: Knowledge Distillation via Semantic Frequency Prompt Yuan Zhang Tao Huang Jiaming Liu Tao Jiang Kuan Cheng Shanghang Zhang AAML 60 15 0 20 Nov 2023