Title
WorldPM: Scaling Human Preference Modeling Binghui Wang Runji Lin Keming Lu Le Yu Zizhuo Zhang ... Xuanjing Huang Yu-Gang Jiang Bowen Yu Jingren Zhou Junyang Lin 29 0 0 15 May 2025
J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning Chenxi Whitehouse Tianlu Wang Ping Yu Xian Li Jason Weston Ilia Kulikov Swarnadeep Saha ALM ELM LRM 29 1 0 15 May 2025
PIG: Privacy Jailbreak Attack on LLMs via Gradient-based Iterative In-Context Optimization Yidan Wang Yanan Cao Yubing Ren Fang Fang Zheng Lin Binxing Fang PILM 53 0 0 15 May 2025
Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents Mrinal Rawat Ambuje Gupta Rushil Goomer Alessandro Di Bari Neha Gupta Roberto Pieraccini LLMAG LRM 26 0 0 15 May 2025
On the Evaluation of Engineering Artificial General Intelligence Sandeep Neema Susmit Jha Adam Nagel Ethan Lew Chandrasekar Sureshkumar Aleksa Gordic Chase Shimmin Hieu Nguygen Paul Eremenko ELM 22 0 0 15 May 2025
WorldView-Bench: A Benchmark for Evaluating Global Cultural Perspectives in Large Language Models Abdullah Mushtaq Imran Taj Rafay Naeem Ibrahim Ghaznavi Junaid Qadir 30 0 0 14 May 2025
A Data Synthesis Method Driven by Large Language Models for Proactive Mining of Implicit User Intentions in Tourism Jinqiang Wang Huansheng Ning Tao Zhu Jianguo Ding 9 0 0 14 May 2025
A Multimodal Multi-Agent Framework for Radiology Report Generation Ziruo Yi Ting Xiao Mark V. Albert MedIm 34 0 0 14 May 2025
Seeing Beyond the Scene: Enhancing Vision-Language Models with Interactional Reasoning Dayong Liang Changmeng Zheng Zhiyuan Wen Yi Cai Xiao Wei Qing Li LRM 36 0 0 14 May 2025
Automated Meta Prompt Engineering for Alignment with the Theory of Mind Aaron Baughman Rahul Agarwal Eduardo Morales Gozde Akay 46 0 0 13 May 2025
TRAIL: Trace Reasoning and Agentic Issue Localization Darshan Deshpande Varun Gangal Hersh Mehta Jitin Krishnan Anand Kannappan Rebecca Qian 35 0 0 13 May 2025
From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation Yifu Yuan Haiqin Cui Yibin Chen Zibin Dong Fei Ni Longxin Kou Jinyi Liu Pengyi Li Yan Zheng Jianye Hao 36 0 0 13 May 2025
On the Account Security Risks Posed by Password Strength Meters Ming Xu Weili Han Jitao Yu Jing Liu Xinsong Zhang Yun Lin Jin Song Dong 36 0 0 13 May 2025
LCES: Zero-shot Automated Essay Scoring via Pairwise Comparisons Using Large Language Models Takumi Shibata Yuichi Miyamura 41 0 0 13 May 2025
SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models Peichao Lai Kaipeng Zhang Yi Lin L. Zhang Feiyang Ye ... Zifei Shan Zeang Sheng Yansen Wang Wentao Zhang Bin Cui ELM LRM 51 0 0 12 May 2025
How well do LLMs reason over tabular data, really? Cornelius Wolff Madelon Hulsebos LMTD ELM LRM 52 0 0 12 May 2025
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning Xiaokun Wang Chris Jiangbo Pei Wei Shen Yi Peng ... Ai Jian Tianyidan Xie Xuchen Song Yang Liu Yahui Zhou OffRL LRM 33 0 0 12 May 2025
SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models Hang Wu Jianian Zhu Yongqian Li Haojie Wang Biao Hou Jidong Zhai 48 0 0 12 May 2025
A Case Study Investigating the Role of Generative AI in Quality Evaluations of Epics in Agile Software Development Werner Geyer Jessica He Daita Sarkar Michelle Brachman Chris Hammond Jennifer Heins Zahra Ashktorab Carlos Rosemberg Charlie Hill 35 0 0 12 May 2025
PLHF: Prompt Optimization with Few-Shot Human Feedback Chun-Pai Yang Kan Zheng Shou-De Lin 24 0 0 11 May 2025
Benign Samples Matter! Fine-tuning On Outlier Benign Samples Severely Breaks Safety Zihan Guan Mengxuan Hu Ronghang Zhu Sheng Li Anil Vullikanti AAML 36 0 0 11 May 2025
QoS-Efficient Serving of Multiple Mixture-of-Expert LLMs Using Partial Runtime Reconfiguration HamidReza Imani Jiaxin Peng Peiman Mohseni Abdolah Amirany Tarek A. El-Ghazawi MoE 36 0 0 10 May 2025
xGen-small Technical Report Erik Nijkamp Bo Pang Egor Pakhomov Akash Gokul Jin Qu Silvio Savarese Yingbo Zhou Caiming Xiong LLMAG 64 0 0 10 May 2025
LLMs Get Lost In Multi-Turn Conversation Philippe Laban Hiroaki Hayashi Yingbo Zhou Jennifer Neville 53 3 0 09 May 2025
Stability in Single-Peaked Strategic Resource Selection Games Henri Zeiler 34 0 0 09 May 2025
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information Joshua Harris Fan Grayson Felix Feldman Timothy Laurence Toby Nonnenmacher ... Leo Loman Selina Patel Thomas Finnie Samuel Collins Michael Borowitz AI4MH LM&MA ELM 54 0 0 09 May 2025
The ML.ENERGY Benchmark: Toward Automated Inference Energy Measurement and Optimization Jae-Won Chung Jiachen Liu Jeff J. Ma Ruofan Wu Oh Jun Kweon Yuxuan Xia Zhiyu Wu Mosharaf Chowdhury 36 0 0 09 May 2025
clem:todd: A Framework for the Systematic Benchmarking of LLM-Based Task-Oriented Dialogue System Realisations Chalamalasetti Kranti Sherzod Hakimov David Schlangen LLMAG 59 0 0 08 May 2025
LiteLMGuard: Seamless and Lightweight On-Device Prompt Filtering for Safeguarding Small Language Models against Quantization-induced Risks and Vulnerabilities Kalyan Nakka Jimmy Dani Ausmit Mondal Nitesh Saxena AAML 35 0 0 08 May 2025
Scaling Laws for Speculative Decoding Siyuan Yan Mo Zhu Guo-qing Jiang Jianfei Wang Jiaxing Chen ... Xiang Liao Xiao Cui Chen Zhang Zhuoran Song Ran Zhu LRM 48 0 0 08 May 2025
LLAMAPIE: Proactive In-Ear Conversation Assistants Tuochao Chen Nicholas Batchelder Alisa Liu Noah A. Smith Shyamnath Gollakota 214 0 0 07 May 2025
OBLIVIATE: Robust and Practical Machine Unlearning for Large Language Models Xiaoyu Xu Minxin Du Qingqing Ye Haibo Hu MU 60 0 0 07 May 2025
To Judge or not to Judge: Using LLM Judgements for Advertiser Keyphrase Relevance at eBay Soumik Dey Hansi Wu Binbin Li 50 0 0 07 May 2025
A Hashgraph-Inspired Consensus Mechanism for Reliable Multi-Model Reasoning Kolawole E. Ogunsina Morayo A. Ogunsina 44 0 0 06 May 2025
Improving Model Alignment Through Collective Intelligence of Open-Source LLMS Junlin Wang Roy Xie Shang Zhu Jue Wang Ben Athiwaratkun Bhuwan Dhingra Shuaiwen Leon Song Ce Zhang James Zou ALM 43 0 0 05 May 2025
SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning Tianjian Li Daniel Khashabi 60 0 0 05 May 2025
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models Xiaobao Wu LRM 81 2 0 05 May 2025
Bielik 11B v2 Technical Report Krzysztof Ociepa Łukasz Flis Krzysztof Wróbel Adrian Gwoździej Remigiusz Kinas 34 0 0 05 May 2025
RM-R1: Reward Modeling as Reasoning Xiusi Chen Gaotang Li Zehua Wang Bowen Jin Cheng Qian ... Yifang Zhang D. Zhang Tong Zhang Hanghang Tong Heng Ji ReLM OffRL LRM 217 5 0 05 May 2025
R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation Meng-Hao Guo Jiajun Xu Yi Zhang Jiaxi Song Haoyang Peng ... Yongming Rao Houwen Peng Han Hu Gordon Wetzstein Shi-Min Hu ELM LRM 60 2 0 04 May 2025
Adaptive Thinking via Mode Policy Optimization for Social Language Agents Minzheng Wang You Li Haozhao Wang Xinghua Zhang Nan Xu Bingli Wu Fei Huang Haiyang Yu Wenji Mao LLMAG LRM 45 1 0 04 May 2025
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs Haoming Yang Ke Ma Xiaojun Jia Yingfei Sun Qianqian Xu Qingming Huang AAML 249 0 0 03 May 2025
Same evaluation, more tokens: On the effect of input length for machine translation evaluation using Large Language Models Tobias Domhan Dawei Zhu 38 0 0 03 May 2025
LookAlike: Consistent Distractor Generation in Math MCQs Nisarg Parikh Nigel Fernandez Alexander Scarlatos Simon Woodhead Andrew Lan 53 0 0 03 May 2025
Harnessing Structured Knowledge: A Concept Map-Based Approach for High-Quality Multiple Choice Question Generation with Effective Distractors Nicy Scaria Silvester John Joseph Kennedy Diksha Seth Ananya Thakur Deepak N. Subramani AI4Ed 30 0 0 02 May 2025
Always Tell Me The Odds: Fine-grained Conditional Probability Estimation Liaoyaqi Wang Zhengping Jiang Anqi Liu Benjamin Van Durme 63 0 0 02 May 2025
VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding Zongxia Li Xiyang Wu Guangyao Shi Yubin Qin Hongyang Du Tianyi Zhou Dinesh Manocha Jordan Lee Boyd-Graber MLLM 59 0 0 02 May 2025
Multi-agents based User Values Mining for Recommendation L. Chen Wei Yuan Tong Chen Xiangyu Zhao Nguyen Quoc Viet Hung Hongzhi Yin OffRL 55 0 0 02 May 2025
Parameter-Efficient Fine-Tuning with Circulant and Diagonal Vectors Xinyu Ding Lexuan Chen Siyu Liao Zhongfeng Wang 54 0 0 01 May 2025
MINERVA: Evaluating Complex Video Reasoning Arsha Nagrani Sachit Menon Ahmet Iscen Shyamal Buch Ramin Mehran ... Yukun Zhu Carl Vondrick Mikhail Sirotenko Cordelia Schmid Tobias Weyand 60 0 0 01 May 2025