Thought calibration: Efficient and confident test-time scaling

23 May 2025

Papers citing "Thought calibration: Efficient and confident test-time scaling"

27 / 27 papers shown

Title
Conformal Language Model Reasoning with Coherent Factuality Maxon Rubin-Toles Maya Gambhir Keshav Ramji Aaron Roth Surbhi Goel HILM LRM 68 2 0 21 May 2025
Dynamic Early Exit in Reasoning Models Chenxu Yang Qingyi Si Yongjie Duan Zheliang Zhu Chenyu Zhu Zheng Lin Zheng Lin Li Cao Weiping Wang ReLM LRM 146 22 0 22 Apr 2025
Reasoning Models Can Be Effective Without Thinking Wenjie Ma Jingxuan He Charlie Snell Tyler Griggs Sewon Min Matei A. Zaharia ReLM LRM 125 53 1 14 Apr 2025
Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification Anqi Zhang Yulin Chen Jane Pan Chen Zhao Aurojit Panda Jinyang Li He He ReLM LRM 115 17 0 07 Apr 2025
Temporal Consistency for LLM Reasoning Process Error Identification Jiacheng Guo Yue Wu Jiahao Qiu Kaixuan Huang Xinzhe Juan L. Yang Mengdi Wang LRM 87 3 0 18 Mar 2025
Large language model validity via enhanced conformal prediction methods John J. Cherian Isaac Gibbs Emmanuel J. Candès 75 37 0 14 Jun 2024
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B Di Zhang Xiaoshui Huang Dongzhan Zhou Yuqiang Li Wanli Ouyang LRM 93 78 0 11 Jun 2024
Calibrating Reasoning in Language Models with Internal Consistency Zhihui Xie Jizhou Guo Tong Yu Shuai Li LRM 73 12 0 29 May 2024
Language Models with Conformal Factuality Guarantees Christopher Mohri Tatsunori Hashimoto HILM 212 50 0 15 Feb 2024
Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning Yiwei Li Peiwen Yuan Shaoxiong Feng Boyuan Pan Xinglin Wang Bin Sun Heda Wang Kan Li LRM 67 37 0 19 Jan 2024
Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations Peiyi Wang Lei Li Zhihong Shao R. X. Xu Damai Dai Yifei Li Deli Chen Y.Wu Zhifang Sui AIMat LRM ALM 143 395 0 14 Dec 2023
GPQA: A Graduate-Level Google-Proof Q&A Benchmark David Rein Betty Li Hou Asa Cooper Stickland Jackson Petty Richard Yuanzhe Pang Julien Dirani Julian Michael Samuel R. Bowman AI4MH ELM 115 728 0 20 Nov 2023
Efficient Memory Management for Large Language Model Serving with PagedAttention Woosuk Kwon Zhuohan Li Siyuan Zhuang Ying Sheng Lianmin Zheng Cody Hao Yu Joseph E. Gonzalez Haotong Zhang Ion Stoica VLM 192 2,311 0 12 Sep 2023
Let's Verify Step by Step Hunter Lightman V. Kosaraju Yura Burda Harrison Edwards Bowen Baker Teddy Lee Jan Leike John Schulman Ilya Sutskever K. Cobbe ALM OffRL LRM 195 1,233 0 31 May 2023
Large Language Models Can Be Easily Distracted by Irrelevant Context Freda Shi Xinyun Chen Kanishka Misra Nathan Scales David Dohan Ed H. Chi Nathanael Scharli Denny Zhou ReLM RALM LRM 103 594 0 31 Jan 2023
Large Language Models are Better Reasoners with Self-Verification Yixuan Weng Minjun Zhu Fei Xia Bin Li Shizhu He Shengping Liu Bin Sun Kang Liu Jun Zhao ReLM LRM 75 222 0 19 Dec 2022
Fast Inference from Transformers via Speculative Decoding Yaniv Leviathan Matan Kalman Yossi Matias LRM 147 733 0 30 Nov 2022
Enhancing Self-Consistency and Performance of Pre-Trained Language Models through Natural Language Inference E. Mitchell Joseph J. Noh Siyan Li William S. Armstrong Ananth Agarwal Patrick Liu Chelsea Finn Christopher D. Manning 71 35 0 21 Nov 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 526 3,721 0 21 Mar 2022
Learn then Test: Calibrating Predictive Algorithms to Achieve Risk Control Anastasios Nikolas Angelopoulos Stephen Bates Emmanuel J. Candès Michael I. Jordan Lihua Lei 271 134 0 03 Oct 2021
A Gentle Introduction to Conformal Prediction and Distribution-Free Uncertainty Quantification Anastasios Nikolas Angelopoulos Stephen Bates OOD 213 622 0 15 Jul 2021
Anytime Dense Prediction with Confidence Adaptivity Zhuang Liu Zhiqiu Xu H. Wang Trevor Darrell Evan Shelhamer 52 19 0 01 Apr 2021
Measuring Mathematical Problem Solving With the MATH Dataset Dan Hendrycks Collin Burns Saurav Kadavath Akul Arora Steven Basart Eric Tang Basel Alomair Jacob Steinhardt ReLM FaML 183 2,386 0 05 Mar 2021
When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute Tao Lei RALM VLM 115 49 0 24 Feb 2021
Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search Gyuwan Kim Kyunghyun Cho 74 98 0 14 Oct 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 611 4,905 0 23 Jan 2020
A tutorial on conformal prediction Glenn Shafer V. Vovk 454 1,148 0 21 Jun 2007