Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies

6 January 2021

Daniel Khashabi

Papers citing "Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies"

50 / 565 papers shown

Title
Improving Attributed Text Generation of Large Language Models via Preference Learning Dongfang Li Zetian Sun Baotian Hu Zhenyu Liu Xinshuo Hu Xuebo Liu Min Zhang 90 15 0 27 Mar 2024
Hallucination Detection in Foundation Models for Decision-Making: A Flexible Definition and Review of the State of the Art Neeloy Chakraborty Melkior Ornik Katherine Driggs-Campbell LRM 252 12 0 25 Mar 2024
ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting Xiaoxue Cheng Junyi Li Wayne Xin Zhao Ji-Rong Wen LRM AI4CE ReLM 91 9 0 21 Mar 2024
RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners Chi Hu Yuan Ge Xiangnan Ma Hang Cao Qiang Li Yonghua Yang Tong Xiao Jingbo Zhu ReLM ELM LRM ALM 93 9 0 19 Mar 2024
DRAGIN: Dynamic Retrieval Augmented Generation based on the Information Needs of Large Language Models Weihang Su Yichen Tang Qingyao Ai Zhijing Wu Yiqun Liu 3DV RALM AI4TS SyDa 93 21 0 15 Mar 2024
Meaningful Learning: Advancing Abstract Reasoning in Large Language Models via Generic Fact Guidance Kai Xiong Xiao Ding Ting Liu Bing Qin Dongliang Xu Qing Yang Hongtao Liu Yixin Cao LRM 72 7 0 14 Mar 2024
Knowledge Conflicts for LLMs: A Survey Rongwu Xu Zehan Qi Zhijiang Guo Cunxiang Wang Hongru Wang Yue Zhang Wei Xu 310 122 0 13 Mar 2024
Truth-Aware Context Selection: Mitigating Hallucinations of Large Language Models Being Misled by Untruthful Contexts Tian Yu Shaolei Zhang Yang Feng HILM 71 7 0 12 Mar 2024
ERA-CoT: Improving Chain-of-Thought through Entity Relationship Analysis Yanming Liu Xinyue Peng Tianyu Du Jianwei Yin Weihao Liu Xuhong Zhang LRM 84 17 0 11 Mar 2024
RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedback Yanming Liu Xinyue Peng Xuhong Zhang Weihao Liu Jianwei Yin Jiannan Cao Tianyu Du RALM 71 45 0 11 Mar 2024
How Far Are We from Intelligent Visual Deductive Reasoning? Yizhe Zhang Richard He Bai Ruixiang Zhang Jiatao Gu Shuangfei Zhai J. Susskind Navdeep Jaitly ReLM LRM 99 17 0 07 Mar 2024
Exploring the Limitations of Large Language Models in Compositional Relation Reasoning Jinman Zhao Xueyan Zhang BDL LRM 73 4 0 05 Mar 2024
SPUQ: Perturbation-Based Uncertainty Quantification for Large Language Models Xiang Gao Jiaxin Zhang Lalla Mouatadid Kamalika Das 83 14 0 04 Mar 2024
CR-LT-KGQA: A Knowledge Graph Question Answering Dataset Requiring Commonsense Reasoning and Long-Tail Knowledge Willis Guo Armin Toroghi Scott Sanner RALM 65 7 0 03 Mar 2024
Right for Right Reasons: Large Language Models for Verifiable Commonsense Knowledge Graph Question Answering Armin Toroghi Willis Guo Mohammad Mahdi Torabi pour Scott Sanner LRM 101 10 0 03 Mar 2024
RORA: Robust Free-Text Rationale Evaluation Zhengping Jiang Yining Lu Hanjie Chen Daniel Khashabi Benjamin Van Durme Anqi Liu 90 3 0 28 Feb 2024
Towards Generalist Prompting for Large Language Models by Mental Models Haoxiang Guan Jiyan He Shuxin Zheng En-Hong Chen Weiming Zhang Neng H. Yu LRM 81 1 0 28 Feb 2024
Evaluating Quantized Large Language Models Shiyao Li Xuefei Ning Luning Wang Tengxuan Liu Xiangsheng Shi Shengen Yan Guohao Dai Huazhong Yang Yu Wang MQ 119 53 0 28 Feb 2024
Reasoning in Conversation: Solving Subjective Tasks through Dialogue Simulation for Large Language Models Xiaolong Wang Yile Wang Yuan Zhang Ziyue Wang Peng Li Maosong Sun Yang Liu LRM 73 1 0 27 Feb 2024
Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models Xinran Zhao Hongming Zhang Xiaoman Pan Wenlin Yao Dong Yu Tongshuang Wu Jianshu Chen HILM LRM 71 8 0 27 Feb 2024
CriticBench: Benchmarking LLMs for Critique-Correct Reasoning Zicheng Lin Zhibin Gou Tian Liang Ruilin Luo Haowei Liu Yujiu Yang LRM 107 56 0 22 Feb 2024
Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize Encoded Knowledge Jinlan Fu Shenzhen Huangfu Hang Yan See-Kiong Ng Xipeng Qiu LRM 94 8 0 22 Feb 2024
Making Reasoning Matter: Measuring and Improving Faithfulness of Chain-of-Thought Reasoning Debjit Paul Robert West Antoine Bosselut Boi Faltings ReLM LRM 133 28 0 21 Feb 2024
Distillation Contrastive Decoding: Improving LLMs Reasoning with Contrastive Decoding and Distillation Phuc Phan Hieu Tran Long Phan 48 9 0 21 Feb 2024
Calibrating Large Language Models with Sample Consistency Qing Lyu Kumar Shridhar Chaitanya Malaviya Li Zhang Yanai Elazar Niket Tandon Marianna Apidianaki Mrinmaya Sachan Chris Callison-Burch 103 29 0 21 Feb 2024
ELAD: Explanation-Guided Large Language Models Active Distillation Yifei Zhang Bo Pan Chen Ling Yuntong Hu Liang Zhao 104 7 0 20 Feb 2024
Large Language Model-based Human-Agent Collaboration for Complex Task Solving Xueyang Feng Zhiyuan Chen Yujia Qin Yankai Lin Xu Chen Zhiyuan Liu Ji-Rong Wen LLMAG 103 24 0 20 Feb 2024
Discerning and Resolving Knowledge Conflicts through Adaptive Decoding with Contextual Information-Entropy Constraint Xiaowei Yuan Zhao Yang Yequan Wang Shengping Liu Jun Zhao Kang Liu 63 14 0 19 Feb 2024
How Interpretable are Reasoning Explanations from Prompting Large Language Models? Yeo Wei Jie Ranjan Satapathy Rick Mong Min Zhang ReLM LRM 108 21 0 19 Feb 2024
Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents Renxi Wang Haonan Li Xudong Han Yixuan Zhang Timothy Baldwin LLMAG 94 26 0 18 Feb 2024
Multi-Task Inference: Can Large Language Models Follow Multiple Instructions at Once? Seunghyeok Hong Sangwon Baek Sangdae Nam Guijin Son Seungone Kim ELM LRM 119 17 0 18 Feb 2024
AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via Controllable Question Decomposition Zhaorun Chen Zhuokai Zhao Zhihong Zhu Ruiqi Zhang Xiang Li Bhiksha Raj Huaxiu Yao LRM 100 29 0 18 Feb 2024
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation Siyuan Wang Zhuohan Long Zhihao Fan Zhongyu Wei Xuanjing Huang LLMAG 102 38 0 18 Feb 2024
Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs Siyuan Wang Zhongyu Wei Yejin Choi Xiang Ren ReLM ELM LRM 43 24 0 18 Feb 2024
Can Deception Detection Go Deeper? Dataset, Evaluation, and Benchmark for Deception Reasoning Kang Chen Zheng Lian Haiyang Sun Bin Liu Jianhua Tao 106 0 0 18 Feb 2024
Puzzle Solving using Reasoning of Large Language Models: A Survey Panagiotis Giadikiaroglou Maria Lymperaiou Giorgos Filandrianos Giorgos Stamou ELM ReLM LRM 146 34 0 17 Feb 2024
BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge Filtering Haoyu Wang Ruirui Li Haoming Jiang Jinjin Tian Zhengyang Wang Chen Luo Xianfeng Tang Monica Cheng Tuo Zhao Jing Gao RALM KELM 88 21 0 16 Feb 2024
AbsInstruct: Eliciting Abstraction Ability from LLMs through Explanation Tuning with Plausibility Estimation Zhaowei Wang Wei Fan Qing Zong Hongming Zhang Sehyun Choi Tianqing Fang Xin Liu Yangqiu Song Ginny Wong Simon See 94 14 0 16 Feb 2024
Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models Hanxing Ding Liang Pang Zihao Wei Huawei Shen Xueqi Cheng HILM RALM 146 18 0 16 Feb 2024
Can We Verify Step by Step for Incorrect Answer Detection? Xin Xu Shizhe Diao Can Yang Yang Wang LRM 330 15 0 16 Feb 2024
How to Train Data-Efficient LLMs Noveen Sachdeva Benjamin Coleman Wang-Cheng Kang Jianmo Ni Lichan Hong Ed H. Chi James Caverlee Julian McAuley D. Cheng 104 64 0 15 Feb 2024
BBox-Adapter: Lightweight Adapting for Black-Box Large Language Models Haotian Sun Yuchen Zhuang Wei Wei Chao Zhang Bo Dai 99 4 0 13 Feb 2024
Zero-Shot Chain-of-Thought Reasoning Guided by Evolutionary Algorithms in Large Language Models Feihu Jin Yifan Liu Ying Tan LRM ReLM LLMAG 49 13 0 08 Feb 2024
Empowering Language Models with Active Inquiry for Deeper Understanding Jing-Cheng Pang Heng-Bo Fan Pengyuan Wang Jia-Hao Xiao Nan Tang Si-Hang Yang Chengxing Jia Sheng-Jun Huang Yang Yu 46 6 0 06 Feb 2024
Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification Soumya Sanyal Tianyi Xiao Jiacheng Liu Wenya Wang Xiang Ren LRM ReLM 129 12 0 06 Feb 2024
Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation Xinyi Wang Alfonso Amayuelas Kexun Zhang Liangming Pan Wenhu Chen Wenjie Wang LRM 82 15 0 05 Feb 2024
Integration of cognitive tasks into artificial general intelligence test for large models Youzhi Qu Chen Wei Penghui Du Wenxin Che Chi Zhang ... Bin Hu Kai Du Haiyan Wu Jia Liu Quanying Liu ELM 64 10 0 04 Feb 2024
Factuality of Large Language Models in the Year 2024 Yuxia Wang Minghan Wang Muhammad Arslan Manzoor Fei Liu Georgi Georgiev Rocktim Jyoti Das Preslav Nakov LRM HILM 105 35 0 04 Feb 2024
GLaPE: Gold Label-agnostic Prompt Evaluation and Optimization for Large Language Model Xuanchang Zhang Zhuosheng Zhang Hai Zhao LRM ALM 56 3 0 04 Feb 2024
MAGDi: Structured Distillation of Multi-Agent Interaction Graphs Improves Reasoning in Smaller Language Models Justin Chih-Yao Chen Swarnadeep Saha Elias Stengel-Eskin Mohit Bansal LRM LLMAG 76 22 0 02 Feb 2024