Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

3 January 2025

Papers citing "Large Language Monkeys: Scaling Inference Compute with Repeated Sampling"

50 / 162 papers shown

Title
Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity Chan-Jan Hsu Davide Buffelli Jamie McGowan Feng-Ting Liao Yi-Chang Chen Sattar Vakili Da-shan Shiu LLMAG LRM 14 0 0 16 May 2025
Scaling Reasoning can Improve Factuality in Large Language Models Mike Zhang Johannes Bjerva Russa Biswas LRM 12 0 0 16 May 2025
SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning Yige Xu Xu Guo Zhiwei Zeng Chunyan Miao BDL LRM 9 0 0 16 May 2025
Mining Hidden Thoughts from Texts: Evaluating Continual Pretraining with Synthetic Data for LLM Reasoning Yoichi Ishibashi Taro Yano Masafumi Oyamada SyDa LRM 44 0 0 15 May 2025
Parallel Scaling Law for Language Models Mouxiang Chen Binyuan Hui Zeyu Cui Jiaxi Yang Dayiheng Liu Jianling Sun Junyang Lin Zhongxin Liu MoE LRM 37 0 0 15 May 2025
Customizing a Large Language Model for VHDL Design of High-Performance Microprocessors Nicolas Dupuis Ravi Nair Shyam Ramji Sean McClintock Nishant Chauhan Priyanka Nagpal Bart Blaner Ken Valk Leon Stok Ruchir Puri 16 0 0 14 May 2025
CodePDE: An Inference Framework for LLM-driven PDE Solver Generation Shanda Li Tanya Marwah Junhong Shen W. Sun Andrej Risteski Yiming Yang Ameet Talwalkar AI4CE 39 0 0 13 May 2025
Learning from Peers in Reasoning Models Tongxu Luo Wenyu Du Jiaxi Bi Stephen Chung Zhengyang Tang Hao Yang M. Zhang Benyou Wang LRM 38 0 0 12 May 2025
Crosslingual Reasoning through Test-Time Scaling Zheng-Xin Yong Muhammad Farid Adilazuarda Jonibek Mansurov Ruochen Zhang Niklas Muennighoff Carsten Eickhoff Genta Indra Winata Julia Kreutzer Stephen H. Bach Alham Fikri Aji LRM ELM 157 0 0 08 May 2025
Scalable LLM Math Reasoning Acceleration with Low-rank Distillation Harry Dong Bilge Acun Beidi Chen Yuejie Chi LRM 34 0 0 08 May 2025
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey Da Zheng Lun Du Junwei Su Yuchen Tian Yuqi Zhu Jintian Zhang Lanning Wei Ningyu Zhang H. Chen LRM 61 0 0 06 May 2025
Improving Model Alignment Through Collective Intelligence of Open-Source LLMS Junlin Wang Roy Xie Shang Zhu Jue Wang Ben Athiwaratkun Bhuwan Dhingra Shuaiwen Leon Song Ce Zhang James Zou ALM 31 0 0 05 May 2025
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models Xiaobao Wu LRM 72 1 0 05 May 2025
Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks Vishnu Sarukkai Zhiqiang Xie Kayvon Fatahalian LLMAG 75 0 0 01 May 2025
UserCentrix: An Agentic Memory-augmented AI Framework for Smart Spaces Alaa Saleh Sasu Tarkoma Praveen Kumar Donta Naser Hossein Motlagh Schahram Dustdar Susanna Pirttikangas Lauri Lovén 48 0 0 01 May 2025
Calibrating Translation Decoding with Quality Estimation on LLMs Di Wu Yibin Lei Christof Monz 70 0 0 26 Apr 2025
Process Reward Models That Think Muhammad Khalifa Rishabh Agarwal Lajanugen Logeswaran Jaekyeom Kim Hao Peng Moontae Lee Honglak Lee Lu Wang OffRL ALM LRM 44 1 0 23 Apr 2025
Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators Yilun Zhou Austin Xu Peifeng Wang Caiming Xiong Shafiq R. Joty ELM ALM LRM 50 2 0 21 Apr 2025
Prejudge-Before-Think: Enhancing Large Language Models at Test-Time by Process Prejudge Reasoning J. T. Wang Jin Jiang Yang Liu M. Zhang Xunliang Cai LRM 37 0 0 18 Apr 2025
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? Yang Yue Zhiqi Chen Rui Lu Andrew Zhao Zhaokai Wang Yang Yue Shiji Song Gao Huang ReLM LRM 55 12 0 18 Apr 2025
Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods Junlin Wang Shang Zhu Jon Saad-Falcon Ben Athiwaratkun Qingyang Wu Jue Wang Shuaiwen Leon Song Ce Zhang Bhuwan Dhingra James Y. Zou LRM 50 1 0 18 Apr 2025
Cost-of-Pass: An Economic Framework for Evaluating Language Models Mehmet Hamza Erol Batu El Mirac Suzgun Mert Yuksekgonul J. Zou ELM 40 0 0 17 Apr 2025
Sleep-time Compute: Beyond Inference Scaling at Test-time Kevin Lin Charlie Snell Yixuan Wang Charles Packer Sarah Wooders Ion Stoica Joseph E. Gonzalez 44 2 0 17 Apr 2025
ARise: Towards Knowledge-Augmented Reasoning via Risk-Adaptive Search Yuyao Zhang Tianshu Wang Sirui Chen Kun Wang Xingyu Zeng Hongyu Lin Xianpei Han Le Sun Chaochao Lu LRM 31 0 0 15 Apr 2025
Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning Can Jin Hongwu Peng Qixin Zhang Yujin Tang Dimitris N. Metaxas Tong Che LLMAG LRM 148 2 0 14 Apr 2025
M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models Junxiong Wang Wen-Ding Li Daniele Paliotta Daniel Ritter Alexander M. Rush Tri Dao LRM 33 0 0 14 Apr 2025
Reasoning Models Can Be Effective Without Thinking Wenjie Ma Jingxuan He Charlie Snell Tyler Griggs Sewon Min Matei A. Zaharia ReLM LRM 52 6 1 14 Apr 2025
Heimdall: test-time scaling on the generative verification Wenlei Shi Xing Jin LRM 26 0 0 14 Apr 2025
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? Yunxiang Zhang Muhammad Khalifa Shitanshu Bhushan Grant D Murphy Lajanugen Logeswaran Jaekyeom Kim Moontae Lee Honglak Lee Lu Wang LLMAG ELM 62 0 0 13 Apr 2025
Enhancing Mathematical Reasoning in Large Language Models with Self-Consistency-Based Hallucination Detection MingShan Liu Shi Bo Jialing Fang LRM 25 0 0 13 Apr 2025
SeaView: Software Engineering Agent Visual Interface for Enhanced Workflow Timothy Bula Saurabh Pujar Luca Buratti Mihaela A. Bornea Avirup Sil LLMAG 39 0 0 11 Apr 2025
Plan-and-Refine: Diverse and Comprehensive Retrieval-Augmented Generation Alireza Salemi Chris Samarinas Hamed Zamani 33 0 0 10 Apr 2025
Supervised Optimism Correction: Be Confident When LLMs Are Sure Jingyang Zhang Rushuai Yang Shunyu Liu Ting-En Lin Fei Huang Yi Chen Yongqian Li Dacheng Tao OffRL 20 0 0 10 Apr 2025
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill? Chenrui Fan Ming Li Lichao Sun Tianyi Zhou LRM 51 3 0 09 Apr 2025
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models Minki Kang Jongwon Jeong Jaewoong Cho ALM LRM 44 2 0 07 Apr 2025
User Feedback Alignment for LLM-powered Exploration in Large-scale Recommendation Systems Jianling Wang Yifan Liu Yinghao Sun Xuejian Ma Yueqi Wang ... Onkar Dalal Ed Chi Lichan Hong Ningren Han Haokai Lu 28 0 0 07 Apr 2025
Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning Ximing Lu Seungju Han David Acuna Hyunwoo Kim Jaehun Jung ... Niklas Muennighoff M. Patwary M. Shoeybi Bryan Catanzaro Yejin Choi ReLM LRM 44 2 0 06 Apr 2025
Do LLM Evaluators Prefer Themselves for a Reason? Wei-Lin Chen Zhepei Wei Xinyu Zhu Shi Feng Yu Meng ELM LRM 42 0 0 04 Apr 2025
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models Gonçalo Faria Noah A. Smith 34 0 0 04 Apr 2025
Inference-Time Scaling for Generalist Reward Modeling Zijun Liu P. Wang Ran Xu Shirong Ma Chong Ruan Peng Li Yang Liu Y. Wu OffRL LRM 46 11 0 03 Apr 2025
ToolACE-R: Tool Learning with Adaptive Self-Refinement Xingshan Zeng Wei Liu X. Huang Zezhong Wang Lingzhi Wang ... Yishuo Wang Lifeng Shang Xin Jiang Ruiming Tang Qiang Liu CLL 52 0 0 02 Apr 2025
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute Jianhao Chen Zishuo Xun Bocheng Zhou Han Qi Qiaosheng Zhang ... Wei Hu Yuzhong Qu W. Ouyang Wanli Ouyang Shuyue Hu 74 0 0 01 Apr 2025
When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning Nishad Singhi Hritik Bansal Arian Hosseini Aditya Grover Kai-Wei Chang Marcus Rohrbach Anna Rohrbach OffRL LRM 37 1 0 01 Apr 2025
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead Vidhisha Balachandran Jingya Chen Lingjiao Chen Shivam Garg Neel Joshi ... John Langford Besmira Nushi Vibhav Vineet Yue Wu Safoora Yousefi ReLM LRM 59 3 0 31 Mar 2025
From Trial to Triumph: Advancing Long Video Understanding via Visual Context Sample Scaling and Self-reward Alignment Yucheng Suo Fan Ma Linchao Zhu T. Wang Fengyun Rao Yi Yang LRM 77 0 0 26 Mar 2025
Reasoning Beyond Limits: Advances and Open Problems for LLMs M. Ferrag Norbert Tihanyi Merouane Debbah ELM OffRL LRM AI4CE 131 2 0 26 Mar 2025
Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique Y. Li Jiahao Xu Tian Liang Xingyu Chen Zhiwei He ... Rui Wang Z. Zhang Zhaopeng Tu Haitao Mi Dong Yu LRM 50 1 0 21 Mar 2025
Deconstructing Long Chain-of-Thought: A Structured Reasoning Optimization Framework for Long CoT Distillation Yijia Luo Yulin Song Xingyao Zhang Jiaheng Liu Weixun Wang Gengru Chen Wenbo Su Bo Zheng LRM 60 4 0 20 Mar 2025
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal Vaibhav Aggarwal Ojasv Kamal Abhinav Japesh Zhijing Jin Bernhard Schölkopf 52 1 0 18 Mar 2025
MetaScale: Test-Time Scaling with Evolving Meta-Thoughts Qin Liu Wenxuan Zhou Nan Xu James Y. Huang Fei-Yue Wang Sheng Zhang Hoifung Poon M. Chen LLMAG ReLM AI4Cl LRM 95 1 0 17 Mar 2025