Title
Improving Physical Object State Representation in Text-to-Image Generative Systems Tianle Chen Chaitanya Chakka Deepti Ghadiyaram 39 0 0 04 May 2025
Adaptive Thinking via Mode Policy Optimization for Social Language Agents Minzheng Wang You Li Haozhao Wang Xinghua Zhang Nan Xu Bingli Wu Fei Huang Haiyang Yu Wenji Mao LLMAG LRM 43 1 0 04 May 2025
TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action Jen-Hao Cheng Vivian Wang Huayu Wang Huapeng Zhou Yi-Hao Peng ... Wenhao Chai Yi-Ling Chen Vibhav Vineet Qin Cai Lei Li AI4TS 211 0 0 02 May 2025
VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding Zongxia Li Xiyang Wu Guangyao Shi Yubin Qin Hongyang Du Tianyi Zhou Dinesh Manocha Jordan Lee Boyd-Graber MLLM 59 0 0 02 May 2025
Harnessing Structured Knowledge: A Concept Map-Based Approach for High-Quality Multiple Choice Question Generation with Effective Distractors Nicy Scaria Silvester John Joseph Kennedy Diksha Seth Ananya Thakur Deepak N. Subramani AI4Ed 30 0 0 02 May 2025
OET: Optimization-based prompt injection Evaluation Toolkit Jinsheng Pan Xiaogeng Liu Chaowei Xiao AAML 73 0 0 01 May 2025
ScaleTrack: Scaling and back-tracking Automated GUI Agents Jing Huang Zhixiong Zeng Wenkang Han Yufeng Zhong Liming Zheng Shuai Fu Jingyuan Chen Lin Ma 203 0 0 01 May 2025
Entropy Heat-Mapping: Localizing GPT-Based OCR Errors with Sliding-Window Shannon Analysis Alexei Kaltchenko 53 0 0 30 Apr 2025
WebThinker: Empowering Large Reasoning Models with Deep Research Capability X. Li Jiajie Jin Guanting Dong Hongjin Qian Yutao Zhu Yongkang Wu Ji-Rong Wen Zhicheng Dou LLMAG LRM 103 2 0 30 Apr 2025
CodeFlowBench: A Multi-turn, Iterative Benchmark for Complex Code Generation Sizhe Wang Zihan Wang Dongsheng Ma Yongan Yu Rui Ling Zehan Li Zhiyu Li Weinan Zhang LRM 65 0 0 30 Apr 2025
CoordField: Coordination Field for Agentic UAV Task Allocation In Low-altitude Urban Scenarios Tengchao Zhang Yonglin Tian Fei Lin Jun Huang Patrik P. Süli Rui Qin Fei-Yue Wang 73 0 0 30 Apr 2025
Phi-4-reasoning Technical Report Marah Abdin Sahaj Agarwal Ahmed Hassan Awadallah Vidhisha Balachandran Harkirat Singh Behl ... Vaishnavi Shrivastava Vibhav Vineet Yue Wu Safoora Yousefi Guoqing Zheng ReLM LRM 94 3 0 30 Apr 2025
ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction Qihao Liu Ju He Qihang Yu Liang-Chieh Chen Alan Yuille DiffM VGen 88 1 0 30 Apr 2025
YoChameleon: Personalized Vision and Language Generation Thao Nguyen Krishna Kumar Singh Jing Shi Trung H. Bui Yong Jae Lee Yuheng Li MLLM 82 0 0 29 Apr 2025
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction Yuxiao Chen Haoran Li Yuan Sui Yi Liu Yufei He Yangqiu Song Bryan Hooi AAML SILM 63 0 0 29 Apr 2025
CMT: A Cascade MAR with Topology Predictor for Multimodal Conditional CAD Generation Jianyu Wu Yizhou Wang Xiangyu Yue Xinzhu Ma J. Guo Dongzhan Zhou Wanli Ouyang Shixiang Tang 75 0 0 29 Apr 2025
Toward Efficient Exploration by Large Language Model Agents Dilip Arumugam Thomas L. Griffiths LLMAG 94 1 0 29 Apr 2025
Large Language Models are Qualified Benchmark Builders: Rebuilding Pre-Training Datasets for Advancing Code Intelligence Tasks Kang Yang Xinjun Mao Shangwen Wang Yanjie Wang Tanghaoran Zhang Bo Lin Yihao Qin Zhang Zhang Yao Lu Kamal Al-Sabahi ALM 170 1 0 28 Apr 2025
BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text Jiageng Wu Bowen Gu Ren Zhou Kevin Xie Doug Snyder ... Shri Kiran Srinivasan Jonathan H. Chen Santiago Romero-Brufau K. J. Lin Jie Yang LM&MA ELM 101 0 0 28 Apr 2025
Prompt Injection Attack to Tool Selection in LLM Agents Jiawen Shi Zenghui Yuan Guiyao Tie Pan Zhou Neil Zhenqiang Gong Lichao Sun LLMAG 51 0 0 28 Apr 2025
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory Prateek Chhikara Dev Khant Saket Aryan Taranjeet Singh Deshraj Yadav LLMAG RALM 223 0 0 28 Apr 2025
FSBench: A Figure Skating Benchmark for Advancing Artistic Sports Understanding Rong Gao Xin Liu Zhuozhao Hu Bohao Xing Baiqiang Xia Zitong Yu Heikki Kälviäinen 48 0 0 28 Apr 2025
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning Jiaqi Chen Bang Zhang Ruotian Ma Peisong Wang Xiaodan Liang Zhaopeng Tu Xuzhao Li Kwan-Yee K. Wong LLMAG ReLM LRM 91 0 0 27 Apr 2025
Kimi-Audio Technical Report KimiTeam Ding Ding Zeqian Ju Yichong Leng Shixuan Liu ... Zheng Yang Aoxiong Yin Ruibin Yuan Wenjie Qu Zaida Zhou AuLLM VLM 110 5 0 25 Apr 2025
HRScene: How Far Are VLMs from Effective High-Resolution Image Understanding? Yusen Zhang Wenliang Zheng Aashrith Madasu Peng Shi Ryo Kamoi ... Ranran Haoran Zhang Avitej Iyer Renze Lou Wenpeng Yin Rui Zhang 68 0 0 25 Apr 2025
Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review Toghrul Abbasli Kentaroh Toyoda Yuan Wang Leon Witt Muhammad Asif Ali Yukai Miao Dan Li Qingsong Wei UQCV 94 0 0 25 Apr 2025
The Role of Open-Source LLMs in Shaping the Future of GeoAI Xiao Shi Huang Zhengzhong Tu X. Ye Michael Goodchild 50 0 0 24 Apr 2025
FashionM3: Multimodal, Multitask, and Multiround Fashion Assistant based on Unified Vision-Language Model Kaicheng Pang Xingxing Zou W. Wong 29 0 0 24 Apr 2025
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark Hanlei Zhang Zhuohang Li Yeshuang Zhu Hua Xu Peiwu Wang Haige Zhu Jie Zhou Jinchao Zhang 43 0 0 23 Apr 2025
DreamO: A Unified Framework for Image Customization Chong Mou Yanze Wu Wenxu Wu Zinan Guo Pengze Zhang ... Shaojin Wu Songtao Zhao Jian Zhang Qian He Xinglong Wu 49 0 0 23 Apr 2025
Enhancing LLM-Based Agents via Global Planning and Hierarchical Execution Junjie Chen Yiming Li Jingli Yang Ye Liu Qingyao Ai LLMAG 87 0 0 23 Apr 2025
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning Le Zhuo Liangbing Zhao Sayak Paul Yue Liao Renrui Zhang Yi Xin Peng Gao Mohamed Elhoseiny Yiming Li VLM 75 0 0 22 Apr 2025
WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks Ivan Evtimov Arman Zharmagambetov Aaron Grattafiori Chuan Guo Kamalika Chaudhuri AAML 35 1 0 22 Apr 2025
aiXamine: Simplified LLM Safety and Security Fatih Deniz Dorde Popovic Yazan Boshmaf Euisuh Jeong M. Ahmad Sanjay Chawla Issa M. Khalil ELM 80 0 0 21 Apr 2025
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models Weiye Xu Jun Wang Weiyun Wang Zhe Chen Wengang Zhou ... Xiaohua Wang Xizhou Zhu Wenhai Wang Jifeng Dai Jinguo Zhu VLM LRM 61 1 0 21 Apr 2025
Soft yet Effective Robots via Holistic Co-Design Maximilian Stolzle Niccolò Pagliarani F. Stella Josie Hughes Cecilia Laschi Daniela Rus M. Cianchetti Cosimo Della Santina Gioele Zardini 51 1 0 20 Apr 2025
How Well Can General Vision-Language Models Learn Medicine By Watching Public Educational Videos? Rahul Thapa Andrew Li Qingyang Wu Bryan He Yuki Sahashi ... Angela Zhang Ben Athiwaratkun Shuaiwen Leon Song David Ouyang James Zou LM&MA 49 0 0 19 Apr 2025
PipeWeaver: Addressing Data Dynamicity in Large Multimodal Model Training with Dynamic Interleaved Pipeline Zhenliang Xue Hanpeng Hu Xing Chen Yimin Jiang Yixin Song Zeyu Mi Yibo Zhu Daxin Jiang Yubin Xia Haibo Chen 49 0 0 19 Apr 2025
Compile Scene Graphs with Reinforcement Learning Zuyao Chen Jinlin Wu Zhen Lei Marc Pollefeys Chang Wen Chen OffRL LRM 57 0 0 18 Apr 2025
Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training Xinsong Zhang Yarong Zeng Xinting Huang Hu Hu Runquan Xie Han Hu Zhanhui Kang MLLM VLM 55 1 0 17 Apr 2025
InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework Jiale Tao Yanbing Zhang Qixun Wang Yiji Cheng Haofan Wang ... Ruihuang Li Linqing Wang Chunyu Wang Qin Lin Qinglin Lu DiffM 52 1 0 16 Apr 2025
Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models Zhanglin Wu Tengfei Song Ning Xie Mengli Zhu Weidong Zhang ... Pengfei Li Chong Li Junhao Zhu Hao Yang Shiliang Sun 55 2 0 16 Apr 2025
Enhancing Autonomous Driving Systems with On-Board Deployed Large Language Models Nicolas Baumann Cheng Hu Paviththiren Sivasothilingam Haotong Qin Lei Xie Michele Magno Luca Benini 35 1 0 15 Apr 2025
CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives Ayoung Lee Ryan Sungmo Kwon Peter Railton Lu Wang ELM 51 0 0 15 Apr 2025
ViMo: A Generative Visual GUI World Model for App Agents Dezhao Luo Bohan Tang Kang Li Georgios Papoudakis Jifei Song S. Gong Haifeng Zhang Jun Wang Kun Shao LM&Ro VGen 51 0 0 15 Apr 2025
Exploring the Role of Knowledge Graph-Based RAG in Japanese Medical Question Answering with Small-Scale LLMs Yingjian Chen Feiyang Li Xingyu Song Tianxiao Li Zixin Xu Xiujie Chen Issey Sukeda Irene Z Li 28 0 0 15 Apr 2025
LLaVA-ReID: Selective Multi-image Questioner for Interactive Person Re-Identification Yiding Lu Mouxing Yang Dezhong Peng Peng Hu Yijie Lin Xi Peng 191 0 0 14 Apr 2025
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models Jinguo Zhu Weiyun Wang Zhe Chen Z. Liu Shenglong Ye ... Dahua Lin Yu Qiao Jifeng Dai Wenhai Wang Wei Wang MLLM VLM 70 19 1 14 Apr 2025
SocioVerse: A World Model for Social Simulation Powered by LLM Agents and A Pool of 10 Million Real-World Users Jiahui Geng Jiayu Lin Xinyi Mou Shiyue Yang Xiawei Liu ... Jiebo Luo Shiping Tang Libo Wu Baohua Zhou Zhongyu Wei LLMAG 54 3 0 14 Apr 2025
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization Junlei Zhang Zichen Ding Chang Ma Zijie Chen Qiushi Sun Zhenzhong Lan Junxian He 204 1 0 14 Apr 2025