BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions

24 May 2019

Papers citing "BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions"

50 / 1,143 papers shown

Title
LatestEval: Addressing Data Contamination in Language Model Evaluation through Dynamic and Time-Sensitive Test Construction Yucheng Li Frank Geurin Chenghua Lin 41 35 0 19 Dec 2023
Social Learning: Towards Collaborative Learning with Large Language Models Amirkeivan Mohtashami Florian Hartmann Sian Gooding Lukás Zilka Matt Sharifi Blaise Agüera y Arcas 78 12 0 18 Dec 2023
Retrieval-Augmented Generation for Large Language Models: A Survey Yunfan Gao Yun Xiong Xinyu Gao Kangxiang Jia Jinliu Pan Yuxi Bi Yi Dai Jiawei Sun Meng Wang Haofen Wang 3DV RALM 300 1,841 1 18 Dec 2023
Paloma: A Benchmark for Evaluating Language Model Fit Ian H. Magnusson Akshita Bhagia Valentin Hofmann Luca Soldaini A. Jha ... Iz Beltagy Hanna Hajishirzi Noah A. Smith Kyle Richardson Jesse Dodge 180 27 0 16 Dec 2023
Catwalk: A Unified Language Model Evaluation Framework for Many Datasets Dirk Groeneveld Anas Awadalla Iz Beltagy Akshita Bhagia Ian H. Magnusson Hao Peng Oyvind Tafjord Pete Walsh Kyle Richardson Jesse Dodge 143 1 0 15 Dec 2023
Challenges with unsupervised LLM knowledge discovery Sebastian Farquhar Vikrant Varma Zachary Kenton Johannes Gasteiger Vladimir Mikulik Rohin Shah 76 25 0 15 Dec 2023
Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision Collin Burns Pavel Izmailov Jan Hendrik Kirchner Bowen Baker Leo Gao ... Adrien Ecoffet Manas Joglekar Jan Leike Ilya Sutskever Jeff Wu ELM 131 297 0 14 Dec 2023
The Earth is Flat because...: Investigating LLMs' Belief towards Misinformation via Persuasive Conversation Rongwu Xu Brian S. Lin Shujian Yang Tianqi Zhang Weiyan Shi Tianwei Zhang Zhixuan Fang Wei Xu Han Qiu 160 61 0 14 Dec 2023
ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks Xiaoxia Wu Haojun Xia Stephen Youn Zhen Zheng Shiyang Chen ... Reza Yazdani Aminabadi Yuxiong He Olatunji Ruwase Leon Song Zhewei Yao 127 10 0 14 Dec 2023
Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models Arnav Chavan Nahush Lele Deepak Gupta 48 1 0 12 Dec 2023
Astrocyte-Enabled Advancements in Spiking Neural Networks for Large Language Modeling Guobin Shen Dongcheng Zhao Yiting Dong Yang Li Jindong Li Kang Sun Yi Zeng 91 6 0 12 Dec 2023
Gated Linear Attention Transformers with Hardware-Efficient Training Aaron Courville Bailin Wang Songlin Yang Yikang Shen Yoon Kim 124 180 0 11 Dec 2023
EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism Yanxi Chen Xuchen Pan Yaliang Li Bolin Ding Jingren Zhou LRM 101 33 0 08 Dec 2023
The Cost of Compression: Investigating the Impact of Compression on Parametric Knowledge in Language Models Srinath Namburi Makesh Narsimhan Sreedhar Srinath Srinivasan Frederic Sala MQ 63 11 0 01 Dec 2023
Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness? Kevin Liu Stephen Casper Dylan Hadfield-Menell Jacob Andreas HILM 122 39 0 27 Nov 2023
PrivateLoRA For Efficient Privacy Preserving LLM Yiming Wang Yu Lin Xiaodong Zeng Guannan Zhang 105 14 0 23 Nov 2023
LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms Aditi Jha Sam Havens Jeremey Dohmann Alex Trott Jacob P. Portes ALM 50 11 0 22 Nov 2023
Do Smaller Language Models Answer Contextualised Questions Through Memorisation Or Generalisation? Tim Hartill Joshua Bensemann Michael Witbrock Patricia Riddle KELM 67 0 0 21 Nov 2023
Whispers of Doubt Amidst Echoes of Triumph in NLP Robustness Ashim Gupta Rishanth Rajendhran Nathan Stringham Vivek Srikumar Ana Marasović AAML 86 3 0 16 Nov 2023
GistScore: Learning Better Representations for In-Context Example Selection with Gist Bottlenecks Shivanshu Gupta Clemens Rosenbaum Ethan R. Elenberg LRM 77 8 0 16 Nov 2023
CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models Wenhong Zhu Hong-ping Hao Zhiwei He Yun-Ze Song Yumeng Zhang Hanxu Hu Yiran Wei Rui Wang Hongyuan Lu AAML ELM 52 12 0 15 Nov 2023
Safer-Instruct: Aligning Language Models with Automated Preference Data Taiwei Shi Kai Chen Jieyu Zhao ALM SyDa 99 28 0 15 Nov 2023
Explore Spurious Correlations at the Concept Level in Language Models for Text Classification Yuhang Zhou Paiheng Xu Xiaoyu Liu Bang An Wei Ai Furong Huang LRM 187 27 0 15 Nov 2023
Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment Philippe Laban Lidiya Murakhovs'ka Caiming Xiong Chien-Sheng Wu LRM 93 23 0 14 Nov 2023
It's Not Easy Being Wrong: Large Language Models Struggle with Process of Elimination Reasoning Nishant Balepur Shramay Palta Rachel Rudinger LRM 72 11 0 13 Nov 2023
Efficiently Adapting Pretrained Language Models To New Languages Zoltan Csaki Pian Pawakapan Urmish Thakker Qiantong Xu CLL 99 18 0 09 Nov 2023
Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models Rocktim Jyoti Das Mingjie Sun Liqun Ma Zhiqiang Shen VLM 79 18 0 08 Nov 2023
Not all layers are equally as important: Every Layer Counts BERT Lucas Georges Gabriel Charpentier David Samuel 94 18 0 03 Nov 2023
The language of prompting: What linguistic properties make a prompt successful? Alina Leidinger R. Rooij Ekaterina Shutova 96 45 0 03 Nov 2023
Don't Make Your LLM an Evaluation Benchmark Cheater Kun Zhou Yutao Zhu Zhipeng Chen Wentong Chen Wayne Xin Zhao Xu Chen Yankai Lin Ji-Rong Wen Jiawei Han ELM 186 156 0 03 Nov 2023
CASE: Commonsense-Augmented Score with an Expanded Answer Space Wenkai Chen Sahithya Ravi Vered Shwartz 74 0 0 03 Nov 2023
ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life Videos Te-Lin Wu Zi-Yi Dou Qingyuan Hu Yu Hou Nischal Reddy Chandra Marjorie Freedman R. Weischedel Nanyun Peng 112 8 0 02 Nov 2023
Comparing Optimization Targets for Contrast-Consistent Search Hugo Fry S. Fallows Ian Fan Jamie Wright Nandi Schoots 29 2 0 01 Nov 2023
Making Large Language Models Better Data Creators Dong-Ho Lee Jay Pujara Mohit Sewak Ryen W. White S. Jauhar ALM SyDa 44 26 0 31 Oct 2023
MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models Zhenpeng Su Xing Wu Xue Bai Zijia Lin Hui Chen Guiguang Ding Wei Zhou Songlin Hu 138 5 0 30 Oct 2023
Mean BERTs make erratic language teachers: the effectiveness of latent bootstrapping in low-resource settings David Samuel 54 4 0 30 Oct 2023
Skywork: A More Open Bilingual Foundation Model Tianwen Wei Liang Zhao Lichang Zhang Bo Zhu Lijie Wang ... Yongyi Peng Xiaojuan Liang Shuicheng Yan Han Fang Yahui Zhou 93 102 0 30 Oct 2023
Atom: Low-bit Quantization for Efficient and Accurate LLM Serving Yilong Zhao Chien-Yu Lin Kan Zhu Zihao Ye Lequn Chen Wenlei Bao Luis Ceze Arvind Krishnamurthy Tianqi Chen Baris Kasikci MQ 138 150 0 29 Oct 2023
FP8-LM: Training FP8 Large Language Models Houwen Peng Kan Wu Yixuan Wei Guoshuai Zhao Yuxiang Yang ... Zheng Zhang Shuguang Liu Joe Chau Han Hu Peng Cheng MQ 109 45 0 27 Oct 2023
MPrompt: Exploring Multi-level Prompt Tuning for Machine Reading Comprehension Guoxin Chen Yiming Qian Bowen Wang Liangzhi Li 53 7 0 27 Oct 2023
TarGEN: Targeted Data Generation with Large Language Models Himanshu Gupta Kevin Scaria Ujjwala Anantheswaran Shreyas Verma Mihir Parmar Saurabh Arjun Sawant Chitta Baral Swaroop Mishra SyDa 70 9 0 27 Oct 2023
Proving Test Set Contamination in Black Box Language Models Yonatan Oren Nicole Meister Niladri Chatterji Faisal Ladhak Tatsunori B. Hashimoto HILM 124 146 0 26 Oct 2023
An Open Source Data Contamination Report for Large Language Models Yucheng Li Frank Guerin Chenghua Lin ELM 98 19 0 26 Oct 2023
Understanding the Role of Input Token Characters in Language Models: How Does Information Loss Affect Performance? Ahmed Alajrami Katerina Margatina Nikolaos Aletras AAML 65 1 0 26 Oct 2023
Detecting Pretraining Data from Large Language Models Weijia Shi Anirudh Ajith Mengzhou Xia Yangsibo Huang Daogao Liu Terra Blevins Danqi Chen Luke Zettlemoyer MIALM 122 201 0 25 Oct 2023
Decoding Stumpers: Large Language Models vs. Human Problem-Solvers Alon Goldstein Miriam Havin Roi Reichart Ariel Goldstein LRM ReLM 45 4 0 25 Oct 2023
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression Jiduan Liu Jiahao Liu Qifan Wang Jingang Wang Xunliang Cai Dongyan Zhao Ran Wang Rui Yan 61 4 0 24 Oct 2023
CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without Full Large Language Model Kaiyan Zhang Ning Ding Biqing Qi Xuekai Zhu Xinwei Long Bowen Zhou 95 5 0 24 Oct 2023
Interpreting Answers to Yes-No Questions in User-Generated Content Shivam Mathur Keun Hee Park Dhivya Chinnappa Saketh Kotamraju Eduardo Blanco 47 0 0 24 Oct 2023
Federated Learning of Large Language Models with Parameter-Efficient Prompt Tuning and Adaptive Optimization Tianshi Che Ji Liu Yang Zhou Jiaxiang Ren Jiwen Zhou Victor S. Sheng H. Dai Dejing Dou 90 56 0 23 Oct 2023