Title
Reinforcement Learning for Reasoning in Large Language Models with One Training Example Yiping Wang Qing Yang Zhiyuan Zeng Liliang Ren Liu Liu ... Jianfeng Gao Weizhu Chen Shuaiqiang Wang Simon Shaolei Du Yelong Shen OffRL ReLM LRM 349 47 0 29 Apr 2025
Toward Efficient Exploration by Large Language Model Agents Dilip Arumugam Thomas L. Griffiths LLMAG 223 4 0 29 Apr 2025
A Domain-Agnostic Scalable AI Safety Ensuring Framework Beomjun Kim Kangyeon Kim Sunwoo Kim Heejin Ahn 157 0 0 29 Apr 2025
Detecting Manipulated Contents Using Knowledge-Grounded Inference Mark Huasong Meng Ruizhe Wang Meng Xu Chuan Yan Guangdong Bai 84 0 0 29 Apr 2025
JailbreaksOverTime: Detecting Jailbreak Attacks Under Distribution Shift Julien Piet Xiao Huang Dennis Jacob Annabella Chow Maha Alrashed Geng Zhao Zhanhao Hu Chawin Sitawarin Basel Alomair David Wagner AAML 137 1 0 28 Apr 2025
Modular Machine Learning: An Indispensable Path towards New-Generation Large Language Models X. Wang Haoyang Li Zeyang Zhang Hong Chen Wenwu Zhu LRM 123 1 0 28 Apr 2025
GenCLS++: Pushing the Boundaries of Generative Classification in LLMs Through Comprehensive SFT and RL Studies Across Diverse Datasets Mingqian He Fei Zhao Chonggang Lu Ziqiang Liu Yun Wang Haofu Qian OffRL AI4TS VLM 121 2 0 28 Apr 2025
Conflicts in Texts: Data, Implications and Challenges Siyi Liu Dan Roth 448 0 0 28 Apr 2025
Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI Hugo Georgenthum Cristian Cosentino Fabrizio Marozzo Pietro Liò MedIm 443 0 0 28 Apr 2025
Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning Joykirat Singh Raghav Magazine Yash Pandya A. Nambi LLMAG KELM OffRL LRM 400 7 0 28 Apr 2025
Prompt Injection Attack to Tool Selection in LLM Agents Jiawen Shi Zenghui Yuan Guiyao Tie Pan Zhou Neil Zhenqiang Gong Lichao Sun LLMAG 139 4 0 28 Apr 2025
Contextual Online Uncertainty-Aware Preference Learning for Human Feedback Nan Lu Ethan X. Fang Junwei Lu 423 0 0 27 Apr 2025
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning Jiaqi Chen Bang Zhang Ruotian Ma Peisong Wang Xiaodan Liang Zhaopeng Tu Xuzhao Li Kwan-Yee K. Wong LLMAG ReLM LRM 158 5 0 27 Apr 2025
Anyprefer: An Agentic Framework for Preference Data Synthesis Yiyang Zhou Zhaoxiang Wang Tianle Wang Shangyu Xing Peng Xia ... Chetan Bansal Weitong Zhang Ying Wei Joey Tianyi Zhou Huaxiu Yao 157 2 0 27 Apr 2025
Platonic Grounding for Efficient Multimodal Language Models Moulik Choraria Xinbo Wu Akhil Bhimaraju Nitesh Sekhar Yue Wu Xu Zhang Prateek Singhal Lav Varshney 117 0 0 27 Apr 2025
Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors Ren-Wei Liang Chin-Ting Hsu Chan-Hung Yu Saransh Agrawal Shih-Cheng Huang Shang-Tse Chen Kuan-Hao Huang Shao-Hua Sun 170 0 0 27 Apr 2025
KETCHUP: K-Step Return Estimation for Sequential Knowledge Distillation Jiabin Fan Guoqing Luo Michael Bowling Lili Mou OffRL 149 0 0 26 Apr 2025
Meta-Learning in Self-Play Regret Minimization David Sychrovský Martin Schmid Michal Sustr Michael Bowling 76 0 0 26 Apr 2025
Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs Mohammad Akbar-Tajari Mohammad Taher Pilehvar Mohammad Mahmoody AAML 86 0 0 26 Apr 2025
Spark: A System for Scientifically Creative Idea Generation Aishik Sanyal Samuel Schapiro Sumuk Shashidhar Royce Moon Lav R. Varshney Dilek Hakkani-Tur LRM 93 1 0 25 Apr 2025
Reason Like a Radiologist: Chain-of-Thought and Reinforcement Learning for Verifiable Report Generation Peiyuan Jing Kinhei Lee Zhenxuan Zhang Huichi Zhou Zhengqing Yuan Zhifan Gao Lei Zhu G. Papanastasiou Yingying Fang Guang Yang MedIm OffRL LRM 117 0 0 25 Apr 2025
AI Awareness Xianrui Li Haoyuan Shi Rongwu Xu Wei Xu 137 0 0 25 Apr 2025
Addressing Concept Mislabeling in Concept Bottleneck Models Through Preference Optimization Emiliano Penaloza Tianyue H. Zhan Laurent Charlin Mateo Espinosa Zarlenga 108 0 0 25 Apr 2025
RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models Bang An Shiyue Zhang Mark Dredze 156 5 0 25 Apr 2025
Aligning Language Models for Icelandic Legal Text Summarization Þórir Hrafn Harðarson Hrafn Loftsson Stefán Ólafsson AILaw AI4TS ELM 130 0 0 25 Apr 2025
Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection Atharva Kulkarni Yuan-kang Zhang Joel Ruben Antony Moniz Xiou Ge Bo-Hsiang Tseng Dhivya Piraviperumal Siyang Song Hong-ye Yu HILM 120 0 0 25 Apr 2025
Think, Prune, Train, Improve: Scaling Reasoning without Scaling Models Caia Costello Simon Guo Anna Goldie Azalia Mirhoseini ReLM SyDa LRM 152 5 0 25 Apr 2025
Stabilizing Reasoning in Medical LLMs with Continued Pretraining and Reasoning Preference Optimization Wataru Kawakami Keita Suzuki Junichiro Iwasawa LRM 143 0 0 25 Apr 2025
TLoRA: Tri-Matrix Low-Rank Adaptation of Large Language Models Tanvir Islam AI4CE 204 0 0 25 Apr 2025
Safety in Large Reasoning Models: A Survey Cheng Wang Yang Liu Yangqiu Song Duzhen Zhang Zechao Li ... Shengju Yu Xinfeng Li Junfeng Fang Jiaheng Zhang Bryan Hooi LRM 467 14 0 24 Apr 2025
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning Zihan Wang Kaidi Wang Q. Wang Pingyue Zhang Linjie Li ... Jiajun Wu L. Fei-Fei Lijuan Wang Yejin Choi Manling Li 276 30 0 24 Apr 2025
Tempo: Application-aware LLM Serving with Mixed SLO Requirements Wei Zhang Zhiyu Wu Yi Mu Banruo Liu Myungjin Lee Fan Lai 108 1 0 24 Apr 2025
Super Co-alignment of Human and AI for Sustainable Symbiotic Society Yi Zeng Yijiao Wang Enmeng Lu Dongcheng Zhao Bing Han ... Chao Liu Yaodong Yang Yi Zeng Boyuan Chen Jinyu Fan 195 0 0 24 Apr 2025
Param $Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost Sheng Cao Mingrui Wu Karthik Prasad Yuandong Tian Zechun Liu MoMe 141 0 0 23 Apr 2025
Steering the CensorShip: Uncovering Representation Vectors for LLM "Thought" Control Hannah Cyberey David Evans LLMSV 165 3 0 23 Apr 2025
A Survey of Foundation Model-Powered Recommender Systems: From Feature-Based, Generative to Agentic Paradigms Chengkai Huang Hongtao Huang Tong Yu Kaige Xie Junda Wu Shuai Zhang Julian McAuley Dietmar Jannach Lina Yao LRM AI4CE 89 1 0 23 Apr 2025
Private Federated Learning using Preference-Optimized Synthetic Data Charlie Hou Mei-Yu Wang Yige Zhu Daniel Lazar Giulia Fanti FedML Presented at ResearchTrend Connect \| FedML on 07 May 2025 188 2 0 23 Apr 2025
Planning with Diffusion Models for Target-Oriented Dialogue Systems Hanwen Du Bo Peng Xia Ning 74 0 0 23 Apr 2025
Enhancing LLM-Based Agents via Global Planning and Hierarchical Execution Junjie Chen Haoyang Li Jingli Yang Yang Liu Qingyao Ai LLMAG 213 0 0 23 Apr 2025
PIS: Linking Importance Sampling and Attention Mechanisms for Efficient Prompt Compression Lizhe Chen Binjia Zhou Yuyao Ge Jiayi Chen Shiguang NI 342 1 0 23 Apr 2025
GreenMind: A Next-Generation Vietnamese Large Language Model for Structured and Logical Reasoning Luu Quy Tung Hoang Quoc Viet Vo Trong Thu LRM 49 0 0 23 Apr 2025
ParetoHqD: Fast Offline Multiobjective Alignment of Large Language Models using Pareto High-quality Data Haoran Gu Handing Wang Yi Mei Mengjie Zhang Yaochu Jin 75 1 0 23 Apr 2025
Safety Pretraining: Toward the Next Generation of Safe AI Pratyush Maini Sachin Goyal Dylan Sam Alex Robey Yash Savani Yiding Jiang Andy Zou Zacharcy C. Lipton J. Zico Kolter 220 5 0 23 Apr 2025
Target Concrete Score Matching: A Holistic Framework for Discrete Diffusion Ruixiang Zhang Shuangfei Zhai Yizhe Zhang James Thornton Zijing Ou Joshua M. Susskind Navdeep Jaitly DiffM 96 3 0 23 Apr 2025
TTRL: Test-Time Reinforcement Learning Yuxin Zuo Kaiyan Zhang Li Sheng Li Sheng Xuekai Zhu ... Youbang Sun Zhiyuan Ma Lifan Yuan Ning Ding Bowen Zhou OffRL 427 31 0 22 Apr 2025
TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving Daocheng Fu Zijun Chen Renqiu Xia Qi Liu Yuan Feng ... Peng Gao Junchi Yan Botian Shi Bo Zhang Yu Qiao 96 3 0 22 Apr 2025
Dynamic Early Exit in Reasoning Models Chenxu Yang Qingyi Si Yongjie Duan Zheliang Zhu Chenyu Zhu Zheng Lin Zheng Lin Li Cao Weiping Wang ReLM LRM 189 22 0 22 Apr 2025
SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation Keqi Deng Wenxi Chen Xie Chen P. Woodland 122 0 0 22 Apr 2025
Generative AI for Research Data Processing: Lessons Learnt From Three Use Cases Modhurita Mitra Martine G. de Vos Nicola Cortinovis Dawa Ometto 75 0 0 22 Apr 2025
Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction Yuxin Jiang Yijiao Wang Chuhan Wu Xinyi Dai Yan Xu ... Yucheng Wang Xin Jiang Lifeng Shang Ruiming Tang Wenjie Wang 142 0 0 22 Apr 2025