Title
Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning Jiaer Xia Yuhang Zang Peng Gao Yixuan Li Kaiyang Zhou OffRL ReLM AI4TS VLM LRM 111 0 0 20 May 2025
Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications Fadel M. Megahed Ying-Ju Chen L. Allision Jones-Farmer Younghwa Lee Jiawei Brooke Wang Inez M. Zwetsloot 75 0 0 20 May 2025
AAPO: Enhance the Reasoning Capabilities of LLMs with Advantage Momentum Jian Xiong Jingbo Zhou Jingyong Ye Dejing Dou LRM 97 0 0 20 May 2025
Think-J: Learning to Think for Generative LLM-as-a-Judge Hui Huang Yancheng He Hongli Zhou Rui Zhang Wei Liu Weixun Wang Wenbo Su Bo Zheng Jiaheng Liu LLMAG AILaw ELM LRM 73 1 0 20 May 2025
Fragments to Facts: Partial-Information Fragment Inference from LLMs Lucas Rosenblatt Bin Han Robert Wolfe Bill Howe AAML 63 0 0 20 May 2025
RLVR-World: Training World Models with Reinforcement Learning Jialong Wu Shaofeng Yin Ningya Feng Mingsheng Long OffRL VGen 87 2 0 20 May 2025
sudoLLM : On Multi-role Alignment of Language Models Soumadeep Saha Akshay Chaturvedi Joy Mahapatra Utpal Garain 45 0 0 20 May 2025
Social Sycophancy: A Broader Understanding of LLM Sycophancy Myra Cheng Sunny Yu Cinoo Lee Pranav Khadpe Lujain Ibrahim Dan Jurafsky 54 0 0 20 May 2025
YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering Jennifer D'Souza Hamed Babaei Giglou Quentin Münch ELM 109 0 0 20 May 2025
Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards Xiaoyuan Liu Tian Liang Zhiwei He Jiahao Xu Wenxuan Wang Pinjia He Zhaopeng Tu Haitao Mi Dong Yu OffRL ReLM LRM 119 0 0 19 May 2025
J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization Austin Xu Yilun Zhou Xuan-Phi Nguyen Caiming Xiong Shafiq Joty ELM LRM 150 0 0 19 May 2025
Combining the Best of Both Worlds: A Method for Hybrid NMT and LLM Translation Zhanglin Wu Daimeng Wei Xiaoyu Chen Hengchao Shang Jiaxin Guo Zongyao Li Yuanchang Luo Jinlong Yang Zhiqiang Rao Hao Yang 51 0 0 19 May 2025
MR. Judge: Multimodal Reasoner as a Judge Renjie Pi Felix Bai Qibin Chen Simon Wang Jiulong Shan Kieran Liu Meng Cao ELM LRM 122 0 0 19 May 2025
Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents Yunseok Jang Yeda Song Sungryull Sohn Lajanugen Logeswaran Tiange Luo Dong-Ki Kim Kyunghoon Bae Honglak Lee VGen 62 0 0 19 May 2025
Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks Narek Maloyan Bislan Ashinov Dmitry Namiot AAML ELM 87 0 0 19 May 2025
Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space Hengli Li Chenxi Li Tong Wu Xuekai Zhu Yuxuan Wang ... Eric Hanchen Jiang Song-Chun Zhu Zixia Jia Ying Nian Wu Zilong Zheng LRM 119 1 0 19 May 2025
WikiPersonas: What Can We Learn From Personalized Alignment to Famous People? Zilu Tang Afra Feyza Akyürek Ekin Akyürek Derry Wijaya 116 0 0 19 May 2025
Shadow-FT: Tuning Instruct via Base Taiqiang Wu Runming Yang Jiayi Li Pengfei Hu Ngai Wong Yujiu Yang 243 0 0 19 May 2025
SQLForge: Synthesizing Reliable and Diverse Data to Enhance Text-to-SQL Reasoning in LLMs Yu Guo Dong Jin Shenghao Ye Shuangwu Chen Jian Yang Xiaobin Tan 70 0 0 19 May 2025
Krikri: Advancing Open Large Language Models for Greek Dimitris Roussis Leon Voukoutis Georgios Paraskevopoulos Sokratis Sofianopoulos Prokopis Prokopidis Vassilis Papavasileiou Athanasios Katsamanis Stelios Piperidis Vassilis Katsouros ALM 120 1 0 19 May 2025
CoT-Kinetics: A Theoretical Modeling Assessing LRM Reasoning Process Jinhe Bi Danqi Yan Yifan Wang Wenke Huang Haokun Chen ... Mang Ye Xun Xiao Hinrich Schuetze Volker Tresp Yunpu Ma LRM 116 9 0 19 May 2025
Rethinking Reward Model Evaluation Through the Lens of Reward Overoptimization Sunghwan Kim Dongjin Kang Taeyoon Kwon Hyungjoo Chae Dongha Lee Jinyoung Yeo ALM 109 0 0 19 May 2025
CIE: Controlling Language Model Text Generations Using Continuous Signals Vinay Samuel Harshita Diddee Yiming Zhang Daphne Ippolito 123 0 0 19 May 2025
Walking the Tightrope: Disentangling Beneficial and Detrimental Drifts in Non-Stationary Custom-Tuning Xiaoyu Yang Jie Lu En Yu 65 1 0 19 May 2025
LLM-Based Compact Reranking with Document Features for Scientific Retrieval Runchu Tian Xueqiang Xu Bowen Jin SeongKu Kang Jiawei Han 71 0 0 19 May 2025
PromptPrism: A Linguistically-Inspired Taxonomy for Prompts Sullam Jeoung Yueyan Chen Yi Zhang Shuai Wang Haibo Ding Lin Lee Cheong 68 0 0 19 May 2025
R1dacted: Investigating Local Censorship in DeepSeek's R1 Language Model Ali Naseh Harsh Chaudhari Jaechul Roh Mingshi Wu Alina Oprea Amir Houmansadr AAML ELM 126 2 0 19 May 2025
Reasoning BO: Enhancing Bayesian Optimization with Long-Context Reasoning Power of LLMs Zhuo Yang Lingli Ge Dong Han Tianfan Fu Yuqiang Li 59 0 0 19 May 2025
SayCoNav: Utilizing Large Language Models for Adaptive Collaboration in Decentralized Multi-Robot Navigation Abhinav Rajvanshi Pritish Sahu Tixiao Shan Karan Sikka Han-Pang Chiu 50 0 0 19 May 2025
Learnware of Language Models: Specialized Small Language Models Can Do Big Zhi-Hao Tan Zi-Chen Zhao Hao-Yu Shi Xin-Yu Zhang Peng Tan Yang Yu Zhi Zhou 145 0 0 19 May 2025
Fine-tuning Quantized Neural Networks with Zeroth-order Optimization Sifeng Shang Jiayi Zhou Chenyu Lin Minxian Li Kaiyang Zhou MQ 60 0 0 19 May 2025
Safety Alignment Can Be Not Superficial With Explicit Safety Signals Jianwei Li Jung-Eng Kim AAML 189 1 0 19 May 2025
Metric Distortion for Tournament Voting and Beyond Moses Charikar Prasanna Ramakrishnan Zihan Tan Kangning Wang 37 0 0 19 May 2025
Adaptive Tokenization: On the Hop-Overpriority Problem in Tokenized Graph Learning Models Zhibiao Wang Yunlong Zhou Ziwei Zhang Mengmei Zhang Shirui Pan Chunming Hu Xiao Wang 75 0 0 19 May 2025
A Case Study of Cross-Lingual Zero-Shot Generalization for Classical Languages in LLMs V.S.D.S.Mahesh Akavarapu Hrishikesh Terdalkar Pramit Bhattacharyya Shubhangi Agarwal Vishakha Deulgaonkar Pralay Manna Chaitali Dangarikar Arnab Bhattacharya 91 0 0 19 May 2025
What Prompts Don't Say: Understanding and Managing Underspecification in LLM Prompts Chenyang Yang Y. Shi Qianou Ma Michael Xieyang Liu Christian Kastner Tongshuang Wu 100 0 0 19 May 2025
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang 113 1 0 18 May 2025
SPIRIT: Patching Speech Language Models against Jailbreak Attacks Amirbek Djanibekov Nurdaulet Mukhituly Kentaro Inui Hanan Aldarmaki Nils Lukas AAML 87 0 0 18 May 2025
Towards DS-NER: Unveiling and Addressing Latent Noise in Distant Annotations Yuyang Ding Dan Qiao Jilong Li Jiajie Xu Pingfu Chao Xiaofang Zhou Min Zhang 62 1 0 18 May 2025
LightRetriever: A LLM-based Hybrid Retrieval Architecture with 1000x Faster Query Inference Guangyuan Ma Yongliang Ma Xuanrui Gou Zhenpeng Su Ming Zhou Songlin Hu RALM 90 0 0 18 May 2025
SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning Yang Liu Ming Ma Xiaomin Yu Pengxiang Ding Han Zhao Mingyang Sun Siteng Huang Donglin Wang LRM 210 0 0 18 May 2025
Beyond Single-Point Judgment: Distribution Alignment for LLM-as-a-Judge Luyu Chen Zeyu Zhang Haoran Tan Quanyu Dai Hao-ran Yang Zhenhua Dong Xu Chen 52 0 0 18 May 2025
SGDPO: Self-Guided Direct Preference Optimization for Language Model Alignment Wenqiao Zhu Ji Liu Lulu Wang Jun Wu Yulun Zhang 106 0 0 18 May 2025
Improving LLM Outputs Against Jailbreak Attacks with Expert Model Integration Tatia Tsmindashvili Ana Kolkhidashvili Dachi Kurtskhalia Nino Maghlakelidze Elene Mekvabishvili Guram Dentoshvili Orkhan Shamilov Zaal Gachechiladze Steven Saporta David Dachi Choladze 185 0 0 18 May 2025
Enriching Patent Claim Generation with European Patent Dataset Lekang Jiang Chengzu Li Stephan Goetz 111 2 0 18 May 2025
Not All Documents Are What You Need for Extracting Instruction Tuning Data Chi Zhang Huaping Zhong Hongtao Li Chengliang Chai Jiawei Hong ... Jiantao Qiu Ye Yuan Guoren Wang Zeang Sheng Lei Cao SyDa 81 0 0 18 May 2025
Bridging Generative and Discriminative Learning: Few-Shot Relation Extraction via Two-Stage Knowledge-Guided Pre-training Quanjiang Guo Jinchuan Zhang Sijie Wang Ling Tian Zhao Kang Bin Yan Weidong Xiao 76 1 0 18 May 2025
Reward Inside the Model: A Lightweight Hidden-State Reward Model for LLM's Best-of-N sampling Jizhou Guo Zhaomin Wu Philip S. Yu 87 0 0 18 May 2025
NeuroGen: Neural Network Parameter Generation via Large Language Models Jiaqi Wang Yusen Zhang Xi Li 111 0 0 18 May 2025
Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning Shaobo Wang Xiangqi Jin Ziming Wang Jinqiao Wang Jingyun Zhang ... Zichen Wen Zhong Li Zeang Sheng Xuming Hu Linfeng Zhang SyDa 116 3 0 18 May 2025