Title
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators Shengpeng Ji Tianle Liang Yong Li Jialong Zuo Minghui Fang ... Xize Cheng Siqi Zheng Jin Xu Junyang Lin Zhou Zhao AuLLM ALM 33 0 0 14 May 2025
Enhancing Non-Core Language Instruction-Following in Speech LLMs via Semi-Implicit Cross-Lingual CoT Reasoning Hongfei Xue Yufeng Tang Hexin Liu Jun Zhang Xuelong Geng Lei Xie LRM 57 0 0 29 Apr 2025
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark Hanlei Zhang Zhuohang Li Yeshuang Zhu Hua Xu Peiwu Wang Haige Zhu Jie Zhou Jinchao Zhang 39 0 0 23 Apr 2025
Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation Yunpu Zhao Rui Zhang Junbin Xiao Ruibo Hou Jiaming Guo Zihao Zhang Yifan Hao Yunji Chen 38 0 0 21 Apr 2025
VideoPASTA: 7K Preference Pairs That Matter for Video-LLM Alignment Yogesh Kulkarni Pooyan Fazli 38 0 0 18 Apr 2025
Instruction-augmented Multimodal Alignment for Image-Text and Element Matching Xinli Yue Jianhui Sun Junda Lu Liangchao Yao Fan Xia Tianyi Wang Fengyun Rao Jing Lyu Yuetang Deng 30 0 0 16 Apr 2025
HumanAesExpert: Advancing a Multi-Modality Foundation Model for Human Image Aesthetic Assessment Zhichao Liao Xiaokun Liu Wenyu Qin Qingyu Li Qiulin Wang Pengfei Wan Di Zhang Long Zeng Pingfa Feng 59 0 0 31 Mar 2025
MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions Zhe Xu Daoyuan Chen Zhenqing Ling Yaliang Li Ying Shen ReLM SyDa LRM 57 0 0 12 Mar 2025
FedMABench: Benchmarking Mobile Agents on Decentralized Heterogeneous User Data Wenhao Wang Zijie Yu Guangyi Liu J.N. Zhang Tian Jin Yanfeng Wang FedML 51 0 0 07 Mar 2025
Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models Zhifei Xie Mingbao Lin Ziqiang Liu Pengcheng Wu Shuicheng Yan Chunyan Miao AuLLM OffRL LRM 84 8 0 04 Mar 2025
HIPPO: Enhancing the Table Understanding Capability of Large Language Models through Hybrid-Modal Preference Optimization Zhenghao Liu H. Wang Xinze Li Qiushi Xiong Xiaocui Yang ... Yukun Yan Qi Shi Fangfang Li Ge Yu Maosong Sun LMTD 57 0 0 24 Feb 2025
SegSub: Evaluating Robustness to Knowledge Conflicts and Hallucinations in Vision-Language Models Peter Carragher Nikitha Rao Abhinand Jha R Raghav Kathleen M. Carley VLM 56 0 0 19 Feb 2025
AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding Ahmed Masry Juan A. Rodriguez Tianyu Zhang Suyuchen Wang Chao Wang ... I. Laradji David Vazquez Perouz Taslakian Spandana Gella Sai Rajeswar 56 0 0 03 Feb 2025
VideoSAVi: Self-Aligned Video Language Models without Human Supervision Yogesh Kulkarni Pooyan Fazli VLM 103 2 0 01 Dec 2024
BianCang: A Traditional Chinese Medicine Large Language Model Sibo Wei Xueping Peng Yi-Fei Wang Jiasheng Si Weiyu Zhang Wenpeng Lu Xiaoming Wu Yinglong Wang LM&MA 37 2 0 17 Nov 2024
GeoGround: A Unified Large Vision-Language Model for Remote Sensing Visual Grounding Yue Zhou Mengcheng Lan Xiang Li Yiping Ke Yiping Ke Xue Jiang Qingyun Li Xue Yang Wayne Zhang ObjD VLM 116 4 0 16 Nov 2024
Can Vision Language Models Learn from Visual Demonstrations of Ambiguous Spatial Reasoning? Bowen Zhao Leo Parker Dirac Paulina Varshavskaya VLM LRM 31 0 0 25 Sep 2024
Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources Issey Sukeda ELM 47 1 0 18 Sep 2024
Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients Zhenyu (Allen) Zhang Ajay Jaiswal L. Yin Shiwei Liu Jiawei Zhao Yuandong Tian Zhangyang Wang VLM 33 16 0 11 Jul 2024
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools Team GLM : Aohan Zeng Bin Xu Bowen Wang ... Zhaoyu Wang Zhen Yang Zhengxiao Du Zhenyu Hou Zihan Wang ALM 70 500 0 18 Jun 2024
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit Ruihao Gong Yang Yong Shiqiao Gu Yushi Huang Chentao Lv Yunchen Zhang Xianglong Liu Dacheng Tao MQ 42 7 0 09 May 2024
Extreme Compression of Large Language Models via Additive Quantization Vage Egiazarian Andrei Panferov Denis Kuznedelev Elias Frantar Artem Babenko Dan Alistarh MQ 100 91 0 11 Jan 2024
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Zhe Chen Jiannan Wu Wenhai Wang Weijie Su Guo Chen ... Bin Li Ping Luo Tong Lu Yu Qiao Jifeng Dai VLM MLLM 176 943 0 21 Dec 2023
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks Xiao Liu Kaixuan Ji Yicheng Fu Weng Lam Tam Zhengxiao Du Zhilin Yang Jie Tang VLM 238 808 0 14 Oct 2021