v1v2 (latest)

Self-critiquing models for assisting human evaluators

12 June 2022

Papers citing "Self-critiquing models for assisting human evaluators"

50 / 238 papers shown

Title
FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback Yongbin Li Miao Zheng Fan Yang Bin Cui Tengjiao Wang Xin Wu Guosheng Dong Wentao Zhang ALM 123 8 0 12 Oct 2024
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization Guanlin Liu Kaixuan Ji Ning Dai Zheng Wu Chen Dun Q. Gu Lin Yan Quanquan Gu Lin Yan OffRL LRM 158 13 0 11 Oct 2024
SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction L. Yang Zhaochen Yu Tianze Zhang Minkai Xu Joseph E. Gonzalez Tengjiao Wang Shuicheng Yan ELM ReLM LRM 89 0 0 11 Oct 2024
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints Thomas Palmeira Ferraz Kartik Mehta Yu-Hsiang Lin Haw-Shiuan Chang Shereen Oraby Sijia Liu Vivek Subramanian Tagyoung Chung Mohit Bansal Nanyun Peng 112 14 0 09 Oct 2024
Rationale-Aware Answer Verification by Pairwise Self-Evaluation Akira Kawabata Saku Sugawara LRM 119 5 0 07 Oct 2024
TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and Generation Jonathan Cook Tim Rocktaschel Jakob Foerster Dennis Aumiller Alex Wang ALM 111 16 0 04 Oct 2024
CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning Huimu Yu Xing Wu Weidong Yin Debing Zhang Songlin Hu LRM 86 5 0 03 Oct 2024
Truth or Deceit? A Bayesian Decoding Game Enhances Consistency and Reliability Weitong Zhang Chengqi Zang Bernhard Kainz 72 0 0 01 Oct 2024
A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? Yunfei Xie Juncheng Wu Haoqin Tu Siwei Yang Bingchen Zhao Yongshuo Zong Qiao Jin Cihang Xie Yuyin Zhou LM&MA ELM LRM 114 26 0 23 Sep 2024
Backtracking Improves Generation Safety Yiming Zhang Jianfeng Chi Hailey Nguyen Kartikeya Upasani Daniel M. Bikel Jason Weston Eric Michael Smith SILM 124 8 0 22 Sep 2024
Language Models Learn to Mislead Humans via RLHF Jiaxin Wen Ruiqi Zhong Akbir Khan Ethan Perez Jacob Steinhardt Minlie Huang Samuel R. Bowman He He Shi Feng 113 44 0 19 Sep 2024
Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs Yifan Wang David Stevens Pranay Shah Wenwen Jiang Miao Liu ... Boying Gong Daniel Lee Jiabo Hu Ning Zhang Bob Kamma 101 1 0 16 Sep 2024
Pairing Analogy-Augmented Generation with Procedural Memory for Procedural Q&A K Roth Rushil Gupta Simon Halle Bang Liu RALM 70 0 0 02 Sep 2024
Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic Xin Zheng Jie Lou Boxi Cao Xueru Wen Yuqiu Ji Hongyu Lin Yaojie Lu Xianpei Han Debing Zhang Le Sun OffRL LRM LLMAG ReLM KELM 130 14 1 29 Aug 2024
Critique-out-Loud Reward Models Zachary Ankner Mansheej Paul Brandon Cui Jonathan D. Chang Prithviraj Ammanabrolu ALM LRM 110 38 0 21 Aug 2024
How Susceptible are LLMs to Influence in Prompts? Sotiris Anagnostidis Jannis Bulian LRM 99 24 0 17 Aug 2024
Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge Tianhao Wu Weizhe Yuan O. Yu. Golovneva Jing Xu Yuandong Tian Jiantao Jiao Jason Weston Sainbayar Sukhbaatar ALM KELM LRM 142 96 0 28 Jul 2024
Collaborative Evolving Strategy for Automatic Data-Centric Development Xu Yang Haotian Chen Wenjun Feng Haoxue Wang Zeqi Ye Xinjie Shen Xiao Yang Shizhao Sun Weiqing Liu Jiang Bian 99 3 0 26 Jul 2024
SAFETY-J: Evaluating Safety with Critique Yixiu Liu Yuxiang Zheng Shijie Xia Jiajun Li Yi Tu Chaoling Song Pengfei Liu ELM 74 2 0 24 Jul 2024
Internal Consistency and Self-Feedback in Large Language Models: A Survey Xun Liang Shichao Song Zifan Zheng Hanyu Wang Qingchen Yu ... Rong-Hua Li Peng Cheng Zhonghao Wang Feiyu Xiong Zhiyu Li HILM LRM 162 30 0 19 Jul 2024
Prover-Verifier Games improve legibility of LLM outputs Jan Hendrik Kirchner Yining Chen Harri Edwards Jan Leike Nat McAleese Yuri Burda LRM AAML 82 32 0 18 Jul 2024
Halu-J: Critique-Based Hallucination Judge Binjie Wang Steffi Chern Ethan Chern Pengfei Liu HILM 56 8 0 17 Jul 2024
What's Wrong? Refining Meeting Summaries with LLM Feedback Frederic Kirstein Terry Ruas Bela Gipp 111 6 0 16 Jul 2024
Cohesive Conversations: Enhancing Authenticity in Multi-Agent Simulated Dialogues Kuanchao Chu Yi-Pei Chen Hideki Nakayama LLMAG 88 5 0 13 Jul 2024
Optimal Decision Making Through Scenario Simulations Using Large Language Models Sumedh Rasal E. Hauer 89 1 0 09 Jul 2024
Prompting Techniques for Secure Code Generation: A Systematic Investigation Catherine Tony Nicolás E. Díaz Ferreyra Markus Mutas Salem Dhiff Riccardo Scandariato SILM 159 14 0 09 Jul 2024
On scalable oversight with weak LLMs judging strong LLMs Zachary Kenton Noah Y. Siegel János Kramár Jonah Brown-Cohen Samuel Albanie ... Rishabh Agarwal David Lindner Yunhao Tang Noah D. Goodman Rohin Shah ELM 108 36 0 05 Jul 2024
Spontaneous Reward Hacking in Iterative Self-Refinement Jane Pan He He Samuel R. Bowman Shi Feng 114 9 0 05 Jul 2024
Learning to Refine with Fine-Grained Natural Language Feedback Manya Wadhwa Xinyu Zhao Junyi Jessy Li Greg Durrett 106 16 0 02 Jul 2024
Large Language Models for Behavioral Economics: Internal Validity and Elicitation of Mental Models Brian Jabarian 23 0 0 30 Jun 2024
Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP Omer Goldman Alon Jacovi Aviv Slobodkin Aviya Maimon Ido Dagan Reut Tsarfaty 133 11 0 29 Jun 2024
LLM Critics Help Catch LLM Bugs Nat McAleese Rai Michael Pokorny Juan Felipe Cerón Uribe Evgenia Nitishinskaya Maja Trebacz Jan Leike ALM LRM 85 83 0 28 Jun 2024
Human-AI Collaborative Taxonomy Construction: A Case Study in Profession-Specific Writing Assistants Minhwa Lee Zae Myung Kim Vivek A. Khetan Dongyeop Kang 94 4 0 26 Jun 2024
On the Transformations across Reward Model, Parameter Update, and In-Context Prompt Deng Cai Huayang Li Tingchen Fu Siheng Li Weiwen Xu ... Leyang Cui Yan Wang Lemao Liu Taro Watanabe Shuming Shi KELM 78 2 0 24 Jun 2024
FastMem: Fast Memorization of Prompt Improves Context Awareness of Large Language Models Junyi Zhu Shuochen Liu Yu Yu Bo Tang Yibo Yan Zhiyu Li Feiyu Xiong Tong Xu Matthew B. Blaschko 100 5 0 23 Jun 2024
Beyond Under-Alignment: Atomic Preference Enhanced Factuality Tuning for Large Language Models Hongbang Yuan Yubo Chen Pengfei Cao Zhuoran Jin Kang Liu Jun Zhao 55 0 0 18 Jun 2024
InternalInspector $I^2$ : Robust Confidence Estimation in LLMs through Internal States Mohammad Beigi Ying Shen Runing Yang Zihao Lin Qifan Wang Ankith Mohan Jianfeng He Ming Jin Chang-Tien Lu Lifu Huang HILM 83 10 0 17 Jun 2024
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models Seungone Kim Juyoung Suk Ji Yong Cho Shayne Longpre Chaeeun Kim ... Sean Welleck Graham Neubig Moontae Lee Kyungjae Lee Minjoon Seo ELM ALM LM&MA 208 44 0 09 Jun 2024
Learning Task Decomposition to Assist Humans in Competitive Programming Jiaxin Wen Ruiqi Zhong Pei Ke Zhihong Shao Hongning Wang Minlie Huang ReLM 134 9 0 07 Jun 2024
Open-Endedness is Essential for Artificial Superhuman Intelligence Edward Hughes Michael Dennis Jack Parker-Holder Feryal M. P. Behbahani Aditi Mavalankar Yuge Shi Tom Schaul Tim Rocktaschel LRM 106 33 0 06 Jun 2024
When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs Ryo Kamoi Yusen Zhang Nan Zhang Jiawei Han Rui Zhang LRM 175 85 0 03 Jun 2024
Improving Reward Models with Synthetic Critiques Zihuiwen Ye Fraser Greenlee-Scott Max Bartolo Phil Blunsom Jon Ander Campos Matthias Gallé ALM SyDa LRM 105 24 0 31 May 2024
Stress-Testing Capability Elicitation With Password-Locked Models Ryan Greenblatt Fabien Roger Dmitrii Krasheninnikov David M. Krueger 93 19 0 29 May 2024
Offline Regularised Reinforcement Learning for Large Language Models Alignment Pierre Harvey Richemond Yunhao Tang Daniel Guo Daniele Calandriello M. G. Azar ... Gil Shamir Rishabh Joshi Tianqi Liu Rémi Munos Bilal Piot OffRL 123 29 0 29 May 2024
Efficient Model-agnostic Alignment via Bayesian Persuasion Fengshuo Bai Mingzhi Wang Zhaowei Zhang Boyuan Chen Yinda Xu Ying Wen Yaodong Yang 84 6 0 29 May 2024
LIRE: listwise reward enhancement for preference alignment Mingye Zhu Yi Liu Lei Zhang Junbo Guo Zhendong Mao 58 7 0 22 May 2024
Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents San Kim Gary Geunbae Lee AAML 134 3 0 21 May 2024
OLAPH: Improving Factuality in Biomedical Long-form Question Answering Minbyul Jeong Hyeon Hwang Chanwoong Yoon Taewhoo Lee Jaewoo Kang MedIm HILM LM&MA 125 12 0 21 May 2024
Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging Xiaobo Liang Haoke Zhang Helan hu Juntao Li Jun Xu Min Zhang ALM 77 3 0 20 May 2024
Can Language Models Explain Their Own Classification Behavior? Dane Sherburn Bilal Chughtai Owain Evans 69 1 0 13 May 2024