Can We Verify Step by Step for Incorrect Answer Detection?

16 February 2024

Papers citing "Can We Verify Step by Step for Incorrect Answer Detection?"

21 / 21 papers shown

Title
Detection and Mitigation of Hallucination in Large Reasoning Models: A Mechanistic Perspective Zhongxiang Sun Qipeng Wang Haoyu Wang Xiao Zhang Jun Xu HILM LRM 9 0 0 19 May 2025
SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair Zaoyu Chen Haoran Qin Nuo Chen Xiangyu Zhao Lei Xue Xiapu Luo Xiao-Ming Wu 51 0 0 03 Mar 2025
S^3cMath: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners Yuchen Yan Jin Jiang Yang Liu Yixin Cao Xin Xu Hao Fei Xunliang Cai Jian Shao ReLM LRM KELM 120 7 0 21 Feb 2025
MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task Yuchen Yan Yongliang Shen Yang Liu Jin Jiang Xin Xu Hao Fei Jian Shao Yueting Zhuang ReLM LRM 53 2 0 17 Feb 2025
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving Xin Xu Yan Xu Tianhao Chen Yuchen Yan Chengwu Liu ... Yansen Wang Yichun Yin Yijiao Wang Lifeng Shang Qiang Liu LRM 75 2 0 17 Feb 2025
UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models Xin Xu Qiyun Xu Tong Xiao Tianhao Chen Yuchen Yan Jiaxin Zhang Shizhe Diao Can Yang Yang Wang ELM LRM AI4CE 108 3 0 01 Feb 2025
Cascaded Self-Evaluation Augmented Training for Lightweight Multimodal LLMs Zheqi Lv Wenkai Wang Jiawei Wang Shengyu Zhang Fei Wu LRM ReLM 51 0 0 10 Jan 2025
VeraCT Scan: Retrieval-Augmented Fake News Detection with Justifiable Reasoning Cheng Niu Yang Guan Yuanhao Wu Juno Zhu Juntong Song Randy Zhong Kaihua Zhu Siliang Xu Shizhe Diao Tong Zhang 47 4 0 12 Jun 2024
Can LLMs Solve longer Math Word Problems Better? Xin Xu Tong Xiao Zitong Chao Zhenya Huang Can Yang Yang Wang 70 11 0 23 May 2024
Small Language Models Need Strong Verifiers to Self-Correct Reasoning Yunxiang Zhang Muhammad Khalifa Lajanugen Logeswaran Jaekyeom Kim Moontae Lee Honglak Lee Lu Wang LRM KELM ReLM 31 31 0 26 Apr 2024
FMint: Bridging Human Designed and Data Pretrained Models for Differential Equation Foundation Model Zezheng Song Jiaxin Yuan Haizhao Yang AI4CE 40 17 0 23 Apr 2024
Natural Language Embedded Programs for Hybrid Language Symbolic Reasoning Tianhua Zhang Jiaxin Ge Hongyin Luo Yung-Sung Chuang Mingye Gao Yuan Gong Xixin Wu Yoon Kim Helen M. Meng James R. Glass LRM ReLM 90 15 0 19 Sep 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 328 2,232 0 22 Mar 2023
Active Prompting with Chain-of-Thought for Large Language Models Shizhe Diao Pengcheng Wang Yong Lin Tong Zhang ReLM KELM LLMAG LRM 31 121 0 23 Feb 2023
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 273 2,510 0 06 Oct 2022
Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought Abulhair Saparov He He ELM LRM ReLM 123 277 0 03 Oct 2022
Complexity-Based Prompting for Multi-Step Reasoning Yao Fu Hao-Chun Peng Ashish Sabharwal Peter Clark Tushar Khot ReLM LRM 162 414 0 03 Oct 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 328 4,077 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 314 3,273 0 21 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 354 12,003 0 04 Mar 2022
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies Mor Geva Daniel Khashabi Elad Segal Tushar Khot Dan Roth Jonathan Berant RALM 259 677 0 06 Jan 2021