Papers citing 'Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation'

Title
Beyond MedQA: Towards Real-world Clinical Decision Making in the Era of LLMs Yunpeng Xiao Carl Yang Mark Mai Xiao Hu Kai Shu LM&MA ELM 84 0 0 22 Oct 2025
Enhancing Large Language Model Reasoning with Reward Models: An Analytical Survey Qiyuan Liu Hao Xu Xuhong Chen Wei Chen Yee Whye Teh Ning Miao ReLM LRM AI4CE 144 0 0 02 Oct 2025
RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization Zhaoning Yu Will Su Leitian Tao Haozhu Wang Aashu Singh ... Hongyang Gao Weizhe Yuan Jason Weston Ping Yu Jing Xu OffRL LRM 36 0 0 02 Oct 2025
VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning Rui Liu Dian Yu Tong Zheng Runpeng Dai Zongxia Li ... Zhenwen Liang Linfeng Song Haitao Mi Pratap Tokekar Dong Yu 84 2 0 01 Oct 2025
Causally-Enhanced Reinforcement Policy Optimization Xiangqi Wang Yue Huang Yujun Zhou Xiaonan Luo Kehan Guo Xiangliang Zhang OffRL LRM 45 0 0 27 Sep 2025
One Token to Fool LLM-as-a-Judge Yulai Zhao Haolin Liu Dian Yu Sunyuan Kung Meijia Chen Haitao Mi Dong Yu OffRL LRM 46 14 0 11 Jul 2025
Can Large Reasoning Models Self-Train? Sheikh Shafayat Fahim Tajwar Ruslan Salakhutdinov J. Schneider Andrea Zanette ReLM OffRL LRM 248 15 0 27 May 2025