Adversarial NLI: A New Benchmark for Natural Language Understanding

31 October 2019

Jason Weston

Douwe Kiela

ArXiv PDF HTML

Papers citing "Adversarial NLI: A New Benchmark for Natural Language Understanding"

50 / 261 papers shown

Title
Mirror: A Universal Framework for Various Information Extraction Tasks Tong Zhu Junfei Ren Zijian Yu Mengsong Wu Guoliang Zhang Xiaoye Qu Wenliang Chen Zhefeng Wang Baoxing Huai Min Zhang 38 14 0 09 Nov 2023
Mind the instructions: a holistic evaluation of consistency and interactions in prompt-based learning Lucas Weber Elia Bruni Dieuwke Hupkes 32 25 0 20 Oct 2023
Investigating semantic subspaces of Transformer sentence embeddings through linear structural probing Dmitry Nikolaev Sebastian Padó 46 5 0 18 Oct 2023
"Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters Yixin Wan George Pu Jiao Sun Aparna Garimella Kai-Wei Chang Nanyun Peng 34 162 0 13 Oct 2023
Calibrating Likelihoods towards Consistency in Summarization Models Polina Zablotskaia Misha Khalman Rishabh Joshi Livio Baldini Soares Shoshana Jakobovits Joshua Maynez Shashi Narayan 31 3 0 12 Oct 2023
D2 Pruning: Message Passing for Balancing Diversity and Difficulty in Data Pruning A. Maharana Prateek Yadav Mohit Bansal 27 28 0 11 Oct 2023
FTFT: Efficient and Robust Fine-Tuning by Transferring Training Dynamics Yupei Du Albert Gatt Dong Nguyen 31 1 0 10 Oct 2023
Are Large Language Models Really Robust to Word-Level Perturbations? Haoyu Wang Guozheng Ma Cong Yu Ning Gui Linrui Zhang ... Sen Zhang Li Shen Xueqian Wang Peilin Zhao Dacheng Tao KELM 28 22 0 20 Sep 2023
GLS-CSC: A Simple but Effective Strategy to Mitigate Chinese STM Models' Over-Reliance on Superficial Clue Yanrui Du Sendong Zhao Yuhan Chen Rai Bai Jing Liu Huaqin Wu Haifeng Wang Bing Qin 48 2 0 08 Sep 2023
Which Spurious Correlations Impact Reasoning in NLI Models? A Visual Interactive Diagnosis through Data-Constrained Counterfactuals Robin Shing Moon Chan Afra Amini Mennatallah El-Assady LRM AAML 32 2 0 21 Jun 2023
No Strong Feelings One Way or Another: Re-operationalizing Neutrality in Natural Language Inference Animesh Nighojkar Antonio Laverghetta John Licato 36 4 0 16 Jun 2023
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations Lifan Yuan Yangyi Chen Ganqu Cui Hongcheng Gao Fangyuan Zou Xingyi Cheng Heng Ji Zhiyuan Liu Maosong Sun 39 73 0 07 Jun 2023
What does the Failure to Reason with "Respectively" in Zero/Few-Shot Settings Tell Us about Language Models? Ruixiang Cui Seolhwa Lee Daniel Hershcovich Anders Søgaard 33 2 0 31 May 2023
From Adversarial Arms Race to Model-centric Evaluation: Motivating a Unified Automatic Robustness Evaluation Framework Yangyi Chen Hongcheng Gao Ganqu Cui Lifan Yuan Dehan Kong ... Longtao Huang H. Xue Zhiyuan Liu Maosong Sun Heng Ji AAML ELM 33 6 0 29 May 2023
AlignScore: Evaluating Factual Consistency with a Unified Alignment Function Yuheng Zha Yichi Yang Ruichen Li Zhiting Hu HILM 21 180 0 26 May 2023
Out-of-Distribution Generalization in Text Classification: Past, Present, and Future Linyi Yang Yangqiu Song Xuan Ren Chenyang Lyu Yidong Wang Lingqiao Liu Jindong Wang Jennifer Foster Yue Zhang OOD 37 2 0 23 May 2023
IdEALS: Idiomatic Expressions for Advancement of Language Skills Narutatsu Ri Bill Sun Sam Davidson Zhou Yu 21 0 0 23 May 2023
TaskWeb: Selecting Better Source Tasks for Multi-task NLP Joongwon Kim Akari Asai Gabriel Ilharco Hannaneh Hajishirzi 29 11 0 22 May 2023
Fact-Checking Complex Claims with Program-Guided Reasoning Liangming Pan Xiaobao Wu Xinyuan Lu A. Luu William Yang Wang Min-Yen Kan Preslav Nakov LRM 52 116 0 22 May 2023
A Comprehensive Survey of Sentence Representations: From the BERT Epoch to the ChatGPT Era and Beyond Abhinav Ramesh Kashyap Thang-Tung Nguyen Viktor Schlegel Stefan Winkler See-Kiong Ng Soujanya Poria AI4TS 3DV SSL 37 6 0 22 May 2023
Automated Few-shot Classification with Instruction-Finetuned Language Models Rami Aly Xingjian Shi Kaixiang Lin Aston Zhang A. Wilson 38 9 0 21 May 2023
Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization Ting Wu Rui Zheng Tao Gui Qi Zhang Xuanjing Huang 51 2 0 20 May 2023
Prompting with Pseudo-Code Instructions Mayank Mishra Prince Kumar Riyaz Ahmad Bhat V. Rudramurthy Danish Contractor Srikanth G. Tamilselvam 45 13 0 19 May 2023
Solving NLP Problems through Human-System Collaboration: A Discussion-based Approach Masahiro Kaneko Graham Neubig Naoaki Okazaki 39 6 0 19 May 2023
A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation Xiaowei Huang Wenjie Ruan Wei Huang Gao Jin Yizhen Dong ... Sihao Wu Peipei Xu Dengyu Wu André Freitas Mustafa A. Mustafa ALM 45 83 0 19 May 2023
PaLM 2 Technical Report Rohan Anil Andrew M. Dai Orhan Firat Melvin Johnson Dmitry Lepikhin ... Ce Zheng Wei Zhou Denny Zhou Slav Petrov Yonghui Wu ReLM LRM 128 1,152 0 17 May 2023
Small Models are Valuable Plug-ins for Large Language Models Canwen Xu Yichong Xu Shuohang Wang Yang Liu Chenguang Zhu Julian McAuley LLMAG 44 45 0 15 May 2023
Assessing Hidden Risks of LLMs: An Empirical Study on Robustness, Consistency, and Credibility Wen-song Ye Mingfeng Ou Tianyi Li Yipeng Chen Xuetao Ma ... Sai Wu Jie Fu Gang Chen Haobo Wang J. Zhao 46 36 0 15 May 2023
What's the Meaning of Superhuman Performance in Today's NLU? Simone Tedeschi Johan Bos T. Declerck Jan Hajic Daniel Hershcovich ... Simon Krek Steven Schockaert Rico Sennrich Ekaterina Shutova Roberto Navigli ELM LM&MA VLM ReLM LRM 39 26 0 15 May 2023
SCENE: Self-Labeled Counterfactuals for Extrapolating to Negative Examples Deqing Fu Ameya Godbole Robin Jia 27 8 0 13 May 2023
GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark Dongyang Li Ruixue Ding Qiang-Wei Zhang Zheng Li Boli Chen ... Yao Xu Xin Li Ning Guo Fei Huang Xiaofeng He ELM VLM 34 5 0 11 May 2023
MoT: Memory-of-Thought Enables ChatGPT to Self-Improve Xiaonan Li Xipeng Qiu ReLM KELM LRM AI4MH 26 32 0 09 May 2023
Do Not Blindly Imitate the Teacher: Using Perturbed Loss for Knowledge Distillation Rongzhi Zhang Jiaming Shen Tianqi Liu Jia-Ling Liu Michael Bendersky Marc Najork Chao Zhang 48 18 0 08 May 2023
Exploring the Curious Case of Code Prompts Li Zhang Liam Dugan Hainiu Xu Chris Callison-Burch LRM 45 14 0 26 Apr 2023
LINGO : Visually Debiasing Natural Language Instructions to Support Task Diversity Anjana Arunkumar Shubham Sharma Rakhi Agrawal Sriramakrishnan Chandrasekaran Chris Bryan 34 0 0 12 Apr 2023
Towards preserving word order importance through Forced Invalidation Hadeel Al-Negheimish Pranava Madhyastha Alessandra Russo 24 3 0 11 Apr 2023
Assessing Language Model Deployment with Risk Cards Leon Derczynski Hannah Rose Kirk Vidhisha Balachandran Sachin Kumar Yulia Tsvetkov M. Leiser Saif Mohammad 28 42 0 31 Mar 2023
BloombergGPT: A Large Language Model for Finance Shijie Wu Ozan Irsoy Steven Lu Vadim Dabravolski Mark Dredze Sebastian Gehrmann P. Kambadur David S. Rosenberg Gideon Mann AIFin 85 789 0 30 Mar 2023
Natural Language Reasoning, A Survey Fei Yu Hongbo Zhang Prayag Tiwari Benyou Wang ReLM LRM 49 53 0 26 Mar 2023
An Overview on Language Models: Recent Developments and Outlook Chengwei Wei Yun Cheng Wang Bin Wang C.-C. Jay Kuo 30 42 0 10 Mar 2023
Multitask Prompt Tuning Enables Parameter-Efficient Transfer Learning Zhen Wang Yikang Shen Leonid Karlinsky Rogerio Feris Huan Sun Yoon Kim VLM VPVLM 44 107 0 06 Mar 2023
ESD: Expected Squared Difference as a Tuning-Free Trainable Calibration Measure Hee Suk Yoon Joshua Tian Jin Tee Eunseop Yoon Sunjae Yoon G. Kim Yingzhen Li Changdong Yoo UQCV MQ 20 8 0 04 Mar 2023
Auditing large language models: a three-layered approach Jakob Mokander Jonas Schuett Hannah Rose Kirk Luciano Floridi AILaw MLAU 48 196 0 16 Feb 2023
Learning to Initialize: Can Meta Learning Improve Cross-task Generalization in Prompt Tuning? Chengwei Qin Q. Li Ruochen Zhao Chenyu You VLM LRM 23 15 0 16 Feb 2023
Investigating Multi-source Active Learning for Natural Language Inference Ard Snijders Douwe Kiela Katerina Margatina 24 7 0 14 Feb 2023
Backdoor Learning for NLP: Recent Advances, Challenges, and Future Research Directions Marwan Omar SILM AAML 33 20 0 14 Feb 2023
Symbolic Discovery of Optimization Algorithms Xiangning Chen Chen Liang Da Huang Esteban Real Kaiyuan Wang ... Xuanyi Dong Thang Luong Cho-Jui Hsieh Yifeng Lu Quoc V. Le 67 353 0 13 Feb 2023
Knowledge is a Region in Weight Space for Fine-tuned Language Models Almog Gueta Elad Venezian Colin Raffel Noam Slonim Yoav Katz Leshem Choshen 34 49 0 09 Feb 2023
CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code Models Changan Niu Chuanyi Li Vincent Ng Bin Luo ELM ALM 34 9 0 08 Feb 2023
Differentiable Entailment for Parameter Efficient Few Shot Learning Ethan Kim Jerry Yang 29 0 0 31 Jan 2023