REFINER: Reasoning Feedback on Intermediate Representations

4 April 2023

Boi Faltings

Papers citing "REFINER: Reasoning Feedback on Intermediate Representations"

50 / 54 papers shown

Title
Critique-Guided Distillation: Improving Supervised Fine-tuning via Better Distillation Berkcan Kapusuzoglu Supriyo Chakraborty Chia-Hsuan Lee Sambit Sahu 78 0 0 16 May 2025
CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models Feiyang Li Peng Fang Zhan Shi Arijit Khan Fang Wang Dan Feng Weihao Wang Xin Zhang Yongjian Cui ReLM LRM 77 1 0 18 Apr 2025
LLMs Can Generate a Better Answer by Aggregating Their Own Responses Zichong Li Xinyu Feng Yuheng Cai Zixuan Zhang Tianyi Liu Chen Liang Weizhu Chen Haoyu Wang Tiejun Zhao LRM 85 1 0 06 Mar 2025
InSTA: Towards Internet-Scale Training For Agents Brandon Trabucco Gunnar Sigurdsson Robinson Piramuthu Ruslan Salakhutdinov ALM 146 3 0 10 Feb 2025
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning Di Zhang Jingdi Lei Junxian Li Xunzhi Wang Yong Liu ... Steve Yang Jianbo Wu Peng Ye Wanli Ouyang Dongzhan Zhou OffRL LRM 133 8 0 27 Nov 2024
Counterfactual Debating with Preset Stances for Hallucination Elimination of LLMs Yi Fang Moxin Li Wenjie Wang Hui Lin Fuli Feng LRM 82 8 0 17 Jun 2024
Introspective Planning: Aligning Robots' Uncertainty with Inherent Task Ambiguity Kaiqu Liang Zixu Zhang J. F. Fisac LLMAG 94 8 0 09 Feb 2024
Self-Refine: Iterative Refinement with Self-Feedback Aman Madaan Niket Tandon Prakhar Gupta Skyler Hallinan Luyu Gao ... Bodhisattwa Prasad Majumder Katherine Hermann Sean Welleck Amir Yazdanbakhsh Peter Clark ReLM LRM DiffM 129 1,618 0 30 Mar 2023
Reflexion: Language Agents with Verbal Reinforcement Learning Noah Shinn Federico Cassano Beck Labash A. Gopinath Karthik Narasimhan Shunyu Yao LLMAG KELM 71 1,246 0 20 Mar 2023
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning O. Yu. Golovneva Moya Chen Spencer Poff Martin Corredor Luke Zettlemoyer Maryam Fazel-Zarandi Asli Celikyilmaz ReLM LRM 82 148 0 15 Dec 2022
Constitutional AI: Harmlessness from AI Feedback Yuntao Bai Saurav Kadavath Sandipan Kundu Amanda Askell John Kernion ... Dario Amodei Nicholas Joseph Sam McCandlish Tom B. Brown Jared Kaplan SyDa MoMe 171 1,611 0 15 Dec 2022
Generating Sequences by Learning to Self-Correct Sean Welleck Ximing Lu Peter West Faeze Brahman T. Shen Daniel Khashabi Yejin Choi LRM 66 233 0 31 Oct 2022
Large Language Models Can Self-Improve Jiaxin Huang S. Gu Le Hou Yuexin Wu Xuezhi Wang Hongkun Yu Jiawei Han ReLM AI4MH LRM 149 606 0 20 Oct 2022
Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization Rajkumar Ramamurthy Prithviraj Ammanabrolu Kianté Brantley Jack Hessel R. Sifa Christian Bauckhage Hannaneh Hajishirzi Yejin Choi OffRL 82 246 0 03 Oct 2022
Argumentative Reward Learning: Reasoning About Human Preferences Francis Rhys Ward Francesco Belardinelli Francesca Toni HAI 135 2 0 28 Sep 2022
Self-critiquing models for assisting human evaluators William Saunders Catherine Yeh Jeff Wu Steven Bills Ouyang Long Jonathan Ward Jan Leike ALM ELM 68 300 0 12 Jun 2022
The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning Xi Ye Greg Durrett ReLM LRM 55 177 0 06 May 2022
Training Language Models with Language Feedback Jérémy Scheurer Jon Ander Campos Jun Shern Chan Angelica Chen Kyunghyun Cho Ethan Perez ALM 80 49 0 29 Apr 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 497 3,589 0 21 Mar 2022
Learning to Reason Deductively: Math Word Problem Solving as Complex Relation Extraction Zhanming Jie Jierui Li Wei Lu ReLM AIMat 34 75 0 19 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 740 9,267 0 28 Jan 2022
Learning to Repair: Repairing model output errors after deployment using a dynamic memory of feedback Niket Tandon Aman Madaan Peter Clark Yiming Yang KELM 48 40 0 16 Dec 2021
Ethical and social risks of harm from Language Models Laura Weidinger John F. J. Mellor Maribeth Rauh Conor Griffin J. Uesato ... Lisa Anne Hendricks William S. Isaac Sean Legassick G. Irving Iason Gabriel PILM 95 1,030 0 08 Dec 2021
Tell me why! Explanations support learning relational and causal structure Andrew Kyle Lampinen Nicholas A. Roy Ishita Dasgupta Stephanie C. Y. Chan Allison C. Tam ... Chen Yan Adam Santoro Neil C. Rabinowitz Jane X. Wang Felix Hill 74 46 0 07 Dec 2021
Show Your Work: Scratchpads for Intermediate Computation with Language Models Maxwell Nye Anders Andreassen Guy Gur-Ari Henryk Michalewski Jacob Austin ... Aitor Lewkowycz Maarten Bosma D. Luan Charles Sutton Augustus Odena ReLM LRM 159 737 0 30 Nov 2021
Few-Shot Self-Rationalization with Natural Language Prompts Ana Marasović Iz Beltagy Doug Downey Matthew E. Peters LRM 60 110 0 16 Nov 2021
Training Verifiers to Solve Math Word Problems K. Cobbe V. Kosaraju Mohammad Bavarian Mark Chen Heewoo Jun ... Jerry Tworek Jacob Hilton Reiichiro Nakano Christopher Hesse John Schulman ReLM OffRL LRM 225 4,354 0 27 Oct 2021
Program Synthesis with Large Language Models Jacob Austin Augustus Odena Maxwell Nye Maarten Bosma Henryk Michalewski ... Ellen Jiang Carrie J. Cai Michael Terry Quoc V. Le Charles Sutton ELM AIMat ReCod ALM 180 1,937 0 16 Aug 2021
Measuring and Improving BERT's Mathematical Abilities by Predicting the Order of Reasoning Piotr Pikekos Henryk Michalewski Mateusz Malinowski 46 28 0 07 Jun 2021
COINS: Dynamically Generating COntextualized Inference Rules for Narrative Story Completion Debjit Paul Anette Frank ReLM LRM 46 15 0 04 Jun 2021
A Survey of Data Augmentation Approaches for NLP Steven Y. Feng Varun Gangal Jason W. Wei Sarath Chandar Soroush Vosoughi Teruko Mitamura Eduard H. Hovy AIMat 96 821 0 07 May 2021
NL-EDIT: Correcting semantic parse errors through natural language interaction Ahmed Elgohary Christopher Meek Matthew Richardson Adam Fourney Gonzalo A. Ramos Ahmed Hassan Awadallah KELM 45 45 0 26 Mar 2021
Are NLP Models really able to Solve Simple Math Word Problems? Arkil Patel S. Bhattamishra Navin Goyal ReLM LRM 78 825 0 12 Mar 2021
Interactive Learning from Activity Description Khanh Nguyen Dipendra Kumar Misra Robert Schapire Miroslav Dudík Patrick Shafto 84 35 0 13 Feb 2021
Moral Stories: Situated Reasoning about Norms, Intents, Actions, and their Consequences Denis Emelin Ronan Le Bras Jena D. Hwang Maxwell Forbes Yejin Choi LRM 99 129 0 31 Dec 2020
A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios Michael A. Hedderich Lukas Lange Heike Adel Jannik Strötgen Dietrich Klakow 289 299 0 23 Oct 2020
Learning to summarize from human feedback Nisan Stiennon Long Ouyang Jeff Wu Daniel M. Ziegler Ryan J. Lowe Chelsea Voss Alec Radford Dario Amodei Paul Christiano ALM 218 2,124 0 02 Sep 2020
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 697 41,736 0 28 May 2020
Speak to your Parser: Interactive Text-to-SQL with Natural Language Feedback Ahmed Elgohary Saghar Hosseini Ahmed Hassan Awadallah 67 68 0 05 May 2020
UnifiedQA: Crossing Format Boundaries With a Single QA System Daniel Khashabi Sewon Min Tushar Khot Ashish Sabharwal Oyvind Tafjord Peter Clark Hannaneh Hajishirzi 122 735 0 02 May 2020
Unsupervised Commonsense Question Answering with Self-Talk Vered Shwartz Peter West Ronan Le Bras Chandra Bhagavatula Yejin Choi ReLM SSL AI4MH LRM 61 262 0 11 Apr 2020
Injecting Numerical Reasoning Skills into Language Models Mor Geva Ankit Gupta Jonathan Berant AIMat LRM 62 225 0 09 Apr 2020
Transformers as Soft Reasoners over Language Peter Clark Oyvind Tafjord Kyle Richardson ReLM OffRL LRM 93 358 0 14 Feb 2020
NumNet: Machine Reading Comprehension with Numerical Reasoning Qiu Ran Yankai Lin Peng Li Jie Zhou Zhiyuan Liu ReLM AIMat 52 116 0 15 Oct 2019
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 452 1,717 0 18 Sep 2019
Giving BERT a Calculator: Finding Operations and Arguments with Reading Comprehension D. Andor Luheng He Kenton Lee Emily Pitler AIMat 49 97 0 31 Aug 2019
MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms Aida Amini Saadia Gabriel Shanchuan Lin Rik Koncel-Kedziorski Yejin Choi Hannaneh Hajishirzi AIMat ReLM AI4CE 100 565 0 30 May 2019
Improving Natural Language Interaction with Robots Using Advice Nikhil Mehta Dan Goldwasser LM&Ro 20 15 0 12 May 2019
A Study of Reinforcement Learning for Neural Machine Translation Lijun Wu Fei Tian Tao Qin Jianhuang Lai Tie-Yan Liu OffRL 43 183 0 27 Aug 2018
Guide Me: Interacting with Deep Networks Christian Rupprecht Iro Laina Nassir Navab Gregory Hager Federico Tombari HAI 56 38 0 30 Mar 2018