v1v2 (latest)

Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications

7 November 2023

Papers citing "Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications"

22 / 22 papers shown

Title
Locate-then-Merge: Neuron-Level Parameter Fusion for Mitigating Catastrophic Forgetting in Multimodal LLMs Zeping Yu Sophia Ananiadou MoMe KELM CLL 83 0 0 22 May 2025
Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization Yamato Arai Yuma Ichikawa MQ 99 0 0 13 Apr 2025
VisRL: Intention-Driven Visual Perception via Reinforced Reasoning Zhangquan Chen Xufang Luo Dongsheng Li OffRL LRM 119 3 0 10 Mar 2025
Differentially Private Kernel Density Estimation Erzhi Liu Jerry Yao-Chieh Hu Alex Reneau Zhao Song Han Liu 124 3 0 03 Sep 2024
Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks Daniel Kang Xuechen Li Ion Stoica Carlos Guestrin Matei A. Zaharia Tatsunori Hashimoto AAML 97 253 0 11 Feb 2023
Fine-tuning language models to find agreement among humans with diverse preferences Michiel A. Bakker Martin Chadwick Hannah R. Sheahan Michael Henry Tessler Lucy Campbell-Gillingham ... Nat McAleese Amelia Glaese John Aslanides M. Botvinick Christopher Summerfield ALM 107 236 0 28 Nov 2022
SemAttack: Natural Textual Attacks via Different Semantic Spaces Wei Ping Chejian Xu Xiangyu Liu Yuk-Kit Cheng Yue Liu SILM AAML 103 53 0 03 May 2022
Mitigating Gender Bias in Distilled Language Models via Counterfactual Role Reversal Umang Gupta Jwala Dhamala Varun Kumar Apurv Verma Yada Pruksachatkun Satyapriya Krishna Rahul Gupta Kai-Wei Chang Greg Ver Steeg Aram Galstyan 53 53 0 23 Mar 2022
Ethical and social risks of harm from Language Models Laura Weidinger John F. J. Mellor Maribeth Rauh Conor Griffin J. Uesato ... Lisa Anne Hendricks William S. Isaac Sean Legassick G. Irving Iason Gabriel PILM 122 1,042 0 08 Dec 2021
A Survey on Automated Fact-Checking Zhijiang Guo Michael Schlichtkrull Andreas Vlachos 92 495 0 26 Aug 2021
Towards Understanding and Mitigating Social Biases in Language Models Paul Pu Liang Chiyu Wu Louis-Philippe Morency Ruslan Salakhutdinov 97 397 0 24 Jun 2021
Persistent Anti-Muslim Bias in Large Language Models Abubakar Abid Maheen Farooqi James Zou AILaw 108 557 0 14 Jan 2021
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models Samuel Gehman Suchin Gururangan Maarten Sap Yejin Choi Noah A. Smith 166 1,214 0 24 Sep 2020
The Radicalization Risks of GPT-3 and Advanced Neural Language Models Kris McGuffie Alex Newhouse 60 151 0 15 Sep 2020
Toxicity Detection: Does Context Really Matter? John Pavlopoulos Jeffrey Scott Sorensen Lucas Dixon Nithum Thain Ion Androutsopoulos 87 166 0 01 Jun 2020
Negated and Misprimed Probes for Pretrained Language Models: Birds Can Talk, But Cannot Fly Nora Kassner Hinrich Schütze 68 324 0 08 Nov 2019
Global Voices: Crossing Borders in Automatic News Summarization Khanh Nguyen Hal Daumé 45 36 0 01 Oct 2019
The Woman Worked as a Babysitter: On Biases in Language Generation Emily Sheng Kai-Wei Chang Premkumar Natarajan Nanyun Peng 285 646 0 03 Sep 2019
Defending Against Neural Fake News Rowan Zellers Ari Holtzman Hannah Rashkin Yonatan Bisk Ali Farhadi Franziska Roesner Yejin Choi AAML 134 1,030 0 29 May 2019
Gender Bias in Neural Natural Language Processing Kaiji Lu Piotr (Peter) Mardziel Fangjing Wu Preetam Amancharla Anupam Datta 117 357 0 31 Jul 2018
Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning Xinyun Chen Chang-rui Liu Yue Liu Kimberly Lu Basel Alomair AAML SILM 143 1,854 0 15 Dec 2017
Certified Defenses for Data Poisoning Attacks Jacob Steinhardt Pang Wei Koh Percy Liang AAML 116 759 0 09 Jun 2017