Title
Enriching Patent Claim Generation with European Patent Dataset Lekang Jiang Chengzu Li Stephan Goetz 111 2 0 18 May 2025
Pairwise Calibrated Rewards for Pluralistic Alignment Daniel Halpern Evi Micha Ariel D. Procaccia Itai Shapira 27 0 0 17 May 2025
Enhancing Complex Instruction Following for Large Language Models with Mixture-of-Contexts Fine-tuning Yuheng Lu ZiMeng Bai Caixia Yuan Huixing Jiang Xiaojie Wang LRM 101 0 0 17 May 2025
Safe Delta: Consistently Preserving Safety when Fine-Tuning LLMs on Diverse Datasets Ning Lu Shengcai Liu Jiahao Wu Weiyu Chen Zhirui Zhang Yew-Soon Ong Qi Wang Ke Tang 108 3 0 17 May 2025
VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning Yuqi Liu Tianyuan Qu Zhisheng Zhong Bohao Peng Shu Liu Bei Yu Jiaya Jia VLM LRM 134 3 0 17 May 2025
Counterspeech the ultimate shield! Multi-Conditioned Counterspeech Generation through Attributed Prefix Learning Aswini Kumar Padhi Anil Bandhakavi Tanmoy Chakraborty 223 0 0 17 May 2025
VeriReason: Reinforcement Learning with Testbench Feedback for Reasoning-Enhanced Verilog Generation Yiting Wang Guoheng Sun Wanghao Ye Gang Qu Ang Li OffRL 3DV LRM VLM 89 0 0 17 May 2025
Spotlight Your Instructions: Instruction-following with Dynamic Attention Steering Prince Kumar Danish Contractor LLMSV LRM 83 0 0 17 May 2025
OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning Fanqi Lin Ruiqian Nai Yingdong Hu Jiacheng You Junming Zhao Yang Gao LRM 101 0 0 17 May 2025
Multilingual Collaborative Defense for Large Language Models Hongliang Li Jinan Xu Gengping Cui Changhao Guan Fengran Mo Kaiyu Huang AAML 60 0 0 17 May 2025
Fast RoPE Attention: Combining the Polynomial Method and Fast Fourier Transform Josh Alman Zhao Song 109 16 0 17 May 2025
SafeVid: Toward Safety Aligned Video Large Multimodal Models Yixu Wang Jiaxin Song Yifeng Gao Xin Wang Yang Yao Yan Teng Xingjun Ma Yingchun Wang Yu-Gang Jiang 134 0 0 17 May 2025
Mutual-Taught for Co-adapting Policy and Reward Models Tianyuan Shi Canbin Huang Fanqi Wan Longguang Zhong Ziyi Yang Weizhou Shen Xiaojun Quan Ming Yan 36 0 0 17 May 2025
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment Siliang Zeng Quan Wei William Brown Oana Frunza Yuriy Nevmyvaka Mingyi Hong LRM 113 2 0 17 May 2025
Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier Jianyuan Zhong Zhiyu Li Zhijian Xu Xiangyu Wen Kezhi Li Jianyuan Zhong LRM 64 0 0 17 May 2025
Feasibility with Language Models for Open-World Compositional Zero-Shot Learning Jae Myung Kim Stephan Alaniz Cordelia Schmid Zeynep Akata 83 0 0 16 May 2025
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models Sagnik Mukherjee Lifan Yuan Dilek Hakkani-Tur Hao Peng 115 0 0 16 May 2025
MergeBench: A Benchmark for Merging Domain-Specialized LLMs Yifei He Siqi Zeng Yuzheng Hu Rui Yang Tong Zhang Han Zhao MoMe ALM 114 0 0 16 May 2025
SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization Huashan Sun Shengyi Liao Yansen Han Yu Bai Yang Gao ... Weizhou Shen Fanqi Wan Ming Yan J.N. Zhang Fei Huang 177 0 0 16 May 2025
REMOR: Automated Peer Review Generation with LLM Reasoning and Multi-Objective Reinforcement Learning Pawin Taechoyotin Daniel Acuna LRM 80 0 0 16 May 2025
Finetune-RAG: Fine-Tuning Language Models to Resist Hallucination in Retrieval-Augmented Generation Zhan Peng Lee Andre Lin Calvin Tan RALM HILM 87 0 0 16 May 2025
Can Global XAI Methods Reveal Injected Bias in LLMs? SHAP vs Rule Extraction vs RuleSHAP Francesco Sovrano 163 0 0 16 May 2025
A Systematic Analysis of Base Model Choice for Reward Modeling Kian Ahrabian Pegah Jandaghi Negar Mokhberian Sai Praneeth Karimireddy Jay Pujara 136 0 0 16 May 2025
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning Yang Liu Shengfang Zhai Mingzhe Du Yulin Chen Tri Cao ... Xuzhao Li Kun Wang Junfeng Fang Jiaheng Zhang Bryan Hooi OffRL LRM 107 3 0 16 May 2025
ShiQ: Bringing back Bellman to LLMs Pierre Clavier Nathan Grinsztajn Raphaël Avalos Yannis Flet-Berliac Irem Ergun ... Eugene Tarassov Olivier Pietquin Pierre Harvey Richemond Florian Strub Matthieu Geist OffRL 68 0 0 16 May 2025
ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training Feijiang Han Xiaodong Yu Jianheng Tang Lyle Ungar 104 0 0 16 May 2025
Diffusion-NPO: Negative Preference Optimization for Better Preference Aligned Generation of Diffusion Models Fu-Yun Wang Yunhao Shui Jingtan Piao Keqiang Sun Hongsheng Li 99 4 0 16 May 2025
Unveiling the Potential of Vision-Language-Action Models with Open-Ended Multimodal Instructions Wei Zhao Gongsheng Li Zhefei Gong Pengxiang Ding Han Zhao Donglin Wang LM&Ro 80 0 0 16 May 2025
LARGO: Latent Adversarial Reflection through Gradient Optimization for Jailbreaking LLMs Ran Li Hao Wang Chengzhi Mao AAML 95 1 0 16 May 2025
Critique-Guided Distillation: Improving Supervised Fine-tuning via Better Distillation Berkcan Kapusuzoglu Supriyo Chakraborty Chia-Hsuan Lee Sambit Sahu 127 0 0 16 May 2025
Unifying Segment Anything in Microscopy with Multimodal Large Language Model Manyu Li Ruian He Zixian Zhang Weimin Tan Bo Yan VLM 68 0 0 16 May 2025
Visual Planning: Let's Think Only with Images Yi Xu Chengzu Li Han Zhou Xingchen Wan Caiqi Zhang Anna Korhonen Ivan Vulić LM&Ro LRM 170 1 0 16 May 2025
ReviewInstruct: A Review-Driven Multi-Turn Conversations Generation Method for Large Language Models Jian Wu Cong Wang TianHuang Su Jun Yang Haozhi Lin ... Steve Yang BinQing Pan Hui Yuan Ni Yang ZhenYu Yang ALM 66 0 0 16 May 2025
BLEUBERI: BLEU is a surprisingly effective reward for instruction following Yapei Chang Yekyung Kim Michael Krumdick Amir Zadeh Chuan Li Chris Tanner Mohit Iyyer ALM 167 0 0 16 May 2025
GuideBench: Benchmarking Domain-Oriented Guideline Following for LLM Agents Lingxiao Diao Xinyue Xu Wanxuan Sun Cheng Yang Zhuosheng Zhang LLMAG ALM ELM 107 0 0 16 May 2025
Attention-Based Reward Shaping for Sparse and Delayed Rewards Ian Holmes Min Chi OffRL 92 0 0 16 May 2025
When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs Xiaomin Li Zhou Yu Zhiwei Zhang Xupeng Chen Ziji Zhang Yingying Zhuang Narayanan Sadagopan Anurag Beniwal LRM 109 2 0 16 May 2025
Spectral Policy Optimization: Coloring your Incorrect Reasoning in GRPO Peter Chen Xiaopeng Li Zhiyu Li Xi Chen Tianyi Lin 98 0 0 16 May 2025
Time-R1: Towards Comprehensive Temporal Reasoning in LLMs Zijia Liu Peixuan Han Haofei Yu Haoru Li Jiaxuan You AI4TS LRM 187 0 0 16 May 2025
Ranked Voting based Self-Consistency of Large Language Models Weiqin Wang Yile Wang Hui Huang LRM 76 0 0 16 May 2025
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs Yaorui Shi Shihan Li Chang Wu Zhiyuan Liu Sihang Li Hengxing Cai An Zhang Xiang Wang ReLM LRM 166 0 0 16 May 2025
T2A-Feedback: Improving Basic Capabilities of Text-to-Audio Generation via Fine-grained AI Feedback Zehan Wang Ke Lei Chen Zhu Jiawei Huang Sashuai Zhou ... Xize Cheng Shengpeng Ji Zhenhui Ye Tao Jin Zhou Zhao 78 0 0 15 May 2025
Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models Annie Wong Thomas Bäck Aske Plaat Niki van Stein Anna V. Kononova ReLM ELM LRM 146 0 0 15 May 2025
J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning Chenxi Whitehouse Tianlu Wang Ping Yu Xian Li Jason Weston Ilia Kulikov Swarnadeep Saha ALM ELM LRM 102 6 0 15 May 2025
Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents Mrinal Rawat Ambuje Gupta Rushil Goomer Alessandro Di Bari Neha Gupta Roberto Pieraccini LLMAG LRM 104 0 0 15 May 2025
Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models Zemin Huang Zhiyang Chen Zijun Wang Tiancheng Li Guo-Jun Qi DiffM LRM AI4CE 105 2 0 15 May 2025
Demystifying AI Agents: The Final Generation of Intelligence Kevin J McNamara Rhea Pritham Marpu 77 0 0 15 May 2025
PIG: Privacy Jailbreak Attack on LLMs via Gradient-based Iterative In-Context Optimization Yidan Wang Yanan Cao Yubing Ren Fang Fang Zheng Lin Binxing Fang PILM 128 0 0 15 May 2025
WorldPM: Scaling Human Preference Modeling Binghai Wang Runji Lin Keming Lu Le Yu Zizhuo Zhang ... Xuanjing Huang Yu-Gang Jiang Bowen Yu Jingren Zhou Junyang Lin 110 1 0 15 May 2025
Interpretable Risk Mitigation in LLM Agent Systems Jan Chojnacki LLMAG 166 1 0 15 May 2025