Towards Interpreting and Mitigating Shortcut Learning Behavior of NLU Models

11 March 2021

Jiuxiang Gu

Papers citing "Towards Interpreting and Mitigating Shortcut Learning Behavior of NLU Models"

26 / 26 papers shown

Title
Short-circuiting Shortcuts: Mechanistic Investigation of Shortcuts in Text Classification Leon Eshuijs Shihan Wang Antske Fokkens 26 0 0 09 May 2025
Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers Lam Nguyen Tung Steven Cho Xiaoning Du Neelofar Neelofar Valerio Terragni Stefano Ruberto Aldeida Aleti 148 2 0 30 Oct 2024
InjecGuard: Benchmarking and Mitigating Over-defense in Prompt Injection Guardrail Models Yiming Li Xiaogeng Liu SILM 42 4 0 30 Oct 2024
Co-occurrence is not Factual Association in Language Models Xiao Zhang Miao Li Ji Wu KELM 68 2 0 21 Sep 2024
First Heuristic Then Rational: Dynamic Use of Heuristics in Language Model Reasoning Yoichi Aoki Keito Kudo Tatsuki Kuribayashi Shusaku Sone Masaya Taniguchi Keisuke Sakaguchi Kentaro Inui LRM 29 1 0 23 Jun 2024
A Nurse is Blue and Elephant is Rugby: Cross Domain Alignment in Large Language Models Reveal Human-like Patterns Asaf Yehudai Taelin Karidi Gabriel Stanovsky Ariel Goldstein Omri Abend 47 1 0 23 May 2024
Learning Shortcuts: On the Misleading Promise of NLU in Language Models Geetanjali Bihani Julia Taylor Rayz 33 3 0 17 Jan 2024
Self-Supervised Position Debiasing for Large Language Models Zhongkun Liu Zheng Chen Mengqi Zhang Zhaochun Ren Pengjie Ren Zhumin Chen 36 1 0 02 Jan 2024
Modality-Collaborative Transformer with Hybrid Feature Reconstruction for Robust Emotion Recognition Chengxin Chen Pengyuan Zhang 26 5 0 26 Dec 2023
Accurate Use of Label Dependency in Multi-Label Text Classification Through the Lens of Causality Caoyun Fan Wenqing Chen Jidong Tian Yitian Li Hao He Yaohui Jin 46 6 0 11 Oct 2023
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations Lifan Yuan Yangyi Chen Ganqu Cui Hongcheng Gao Fangyuan Zou Xingyi Cheng Heng Ji Zhiyuan Liu Maosong Sun 39 73 0 07 Jun 2023
Out-of-Distribution Generalization in Text Classification: Past, Present, and Future Linyi Yang Yangqiu Song Xuan Ren Chenyang Lyu Yidong Wang Lingqiao Liu Jindong Wang Jennifer Foster Yue Zhang OOD 37 2 0 23 May 2023
A Comprehensive Survey of Sentence Representations: From the BERT Epoch to the ChatGPT Era and Beyond Abhinav Ramesh Kashyap Thang-Tung Nguyen Viktor Schlegel Stefan Winkler See-Kiong Ng Soujanya Poria AI4TS 3DV SSL 34 6 0 22 May 2023
Debiasing Stance Detection Models with Counterfactual Reasoning and Adversarial Bias Learning Jianhua Yuan Yanyan Zhao Bing Qin 39 4 0 20 Dec 2022
Feature-Level Debiased Natural Language Understanding Yougang Lyu Piji Li Yechang Yang Maarten de Rijke Pengjie Ren Yukun Zhao Dawei Yin Z. Ren 32 10 0 11 Dec 2022
AutoCAD: Automatically Generating Counterfactuals for Mitigating Shortcut Learning Jiaxin Wen Yeshuang Zhu Jinchao Zhang Jie Zhou Minlie Huang CML AAML 22 8 0 29 Nov 2022
XMD: An End-to-End Framework for Interactive Explanation-Based Debugging of NLP Models Dong-Ho Lee Akshen Kadakia Brihi Joshi Aaron Chan Ziyi Liu ... Takashi Shibuya Ryosuke Mitani Toshiyuki Sekiya Jay Pujara Xiang Ren LRM 40 9 0 30 Oct 2022
State-of-the-art generalisation research in NLP: A taxonomy and review Dieuwke Hupkes Mario Giulianelli Verna Dankers Mikel Artetxe Yanai Elazar ... Leila Khalatbari Maria Ryskina Rita Frieske Ryan Cotterell Zhijing Jin 114 93 0 06 Oct 2022
Shortcut Learning of Large Language Models in Natural Language Understanding Mengnan Du Fengxiang He Na Zou Dacheng Tao Xia Hu KELM OffRL 31 84 0 25 Aug 2022
Rectify ViT Shortcut Learning by Visual Saliency Chong Ma Lin Zhao Yuzhong Chen David Liu Xi Jiang Tuo Zhang Xintao Hu Dinggang Shen Dajiang Zhu Tianming Liu ViT 30 20 0 17 Jun 2022
ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization Jiaan Wang Fandong Meng Ziyao Lu Duo Zheng Zhixu Li Jianfeng Qu Jie Zhou ELM 30 35 0 11 Feb 2022
Unveiling Project-Specific Bias in Neural Code Models Zhiming Li Yanzhou Li Tianlin Li Mengnan Du Bozhi Wu Yushi Cao Yi Li Yang Liu 31 5 0 19 Jan 2022
Identifying and Mitigating Spurious Correlations for Improving Robustness in NLP Models Tianlu Wang Rohit Sridhar Diyi Yang Xuezhi Wang AAML 120 72 0 14 Oct 2021
Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning Prasetya Ajie Utama N. Moosavi Victor Sanh Iryna Gurevych AAML 61 35 0 09 Sep 2021
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,956 0 20 Apr 2018
Methods for Interpreting and Understanding Deep Neural Networks G. Montavon Wojciech Samek K. Müller FaML 234 2,238 0 24 Jun 2017