Title
Ethical Concerns of Generative AI and Mitigation Strategies: A Systematic Mapping Study Yutan Huang Chetan Arora Wen Cheng Houng Tanjila Kanij Anuradha Madulgalla John C. Grundy 81 1 0 08 Jan 2025
UniGuard: Towards Universal Safety Guardrails for Jailbreak Attacks on Multimodal Large Language Models Sejoon Oh Yiqiao Jin Megha Sharma Donghyun Kim Eric Ma Gaurav Verma Srijan Kumar 62 6 0 03 Nov 2024
Task-Agnostic Detector for Insertion-Based Backdoor Attacks Weimin Lyu Xiao Lin Songzhu Zheng Lu Pang Haibin Ling Susmit Jha Chao Chen 45 25 0 25 Mar 2024
k-SemStamp: A Clustering-Based Semantic Watermark for Detection of Machine-Generated Text Abe Bohan Hou Jingyu Zhang Yichen Wang Daniel Khashabi Tianxing He WaLM 89 14 0 17 Feb 2024
Understanding Survey Paper Taxonomy about Large Language Models via Graph Representation Learning Jun Zhuang C. Kennington 28 9 0 16 Feb 2024
Better to Ask in English: Cross-Lingual Evaluation of Large Language Models for Healthcare Queries Yiqiao Jin Mohit Chandra Gaurav Verma Yibo Hu Munmun De Choudhury Srijan Kumar LM&MA ELM 89 66 0 19 Oct 2023
Large Language Models Can Be Good Privacy Protection Learners Yijia Xiao Yiqiao Jin Yushi Bai Yue Wu Xianjun Yang ... Xujiang Zhao Yanchi Liu Haifeng Chen Wei Wang Wei Cheng PILM 102 17 0 03 Oct 2023
Robust Multi-bit Natural Language Watermarking through Invariant Features Kiyoon Yoo Wonhyuk Ahn Jiho Jang Nojun Kwak WaLM 145 77 0 03 May 2023
Privacy-Preserving In-Context Learning for Large Language Models Tong Wu Ashwinee Panda Jiachen T. Wang Prateek Mittal 51 29 0 02 May 2023
Faithfulness-Aware Decoding Strategies for Abstractive Summarization David Wan Mengwen Liu Kathleen McKeown Markus Dreyer Joey Tianyi Zhou HILM 111 32 0 06 Mar 2023
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng-Zhen Zhang Yuxiao Dong Jie Tang BDL LRM 250 1,073 0 05 Oct 2022
"I'm sorry to hear that": Finding New Biases in Language Models with a Holistic Descriptor Dataset Eric Michael Smith Melissa Hall Melanie Kambadur Eleonora Presani Adina Williams 76 129 0 18 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,953 0 04 Mar 2022
Decepticons: Corrupted Transformers Breach Privacy in Federated Learning for Language Models Liam H. Fowl Jonas Geiping Steven Reich Yuxin Wen Wojtek Czaja Micah Goldblum Tom Goldstein FedML 73 56 0 29 Jan 2022
Protecting Intellectual Property of Language Generation APIs with Lexical Watermark Xuanli He Qiongkai Xu Lingjuan Lyu Fangzhao Wu Chenguang Wang WaLM 177 94 0 05 Dec 2021
BBQ: A Hand-Built Bias Benchmark for Question Answering Alicia Parrish Angelica Chen Nikita Nangia Vishakh Padmakumar Jason Phang Jana Thompson Phu Mon Htut Sam Bowman 217 367 0 15 Oct 2021
Differentially Private Fine-tuning of Language Models Da Yu Saurabh Naik A. Backurs Sivakanth Gopi Huseyin A. Inan ... Y. Lee Andre Manoel Lukas Wutschitz Sergey Yekhanin Huishuai Zhang 134 346 0 13 Oct 2021
Challenges in Detoxifying Language Models Johannes Welbl Amelia Glaese J. Uesato Sumanth Dathathri John F. J. Mellor Lisa Anne Hendricks Kirsty Anderson Pushmeet Kohli Ben Coppin Po-Sen Huang LM&MA 250 193 0 15 Sep 2021
Mitigating Language-Dependent Ethnic Bias in BERT Jaimeen Ahn Alice H. Oh 139 91 0 13 Sep 2021
Deduplicating Training Data Makes Language Models Better Katherine Lee Daphne Ippolito A. Nystrom Chiyuan Zhang Douglas Eck Chris Callison-Burch Nicholas Carlini SyDa 242 592 0 14 Jul 2021
Generating Gender Augmented Data for NLP N. Jain Maja Popovic Declan Groves Eva Vanmassenhove 26 15 0 13 Jul 2021
Dataset Inference: Ownership Resolution in Machine Learning Pratyush Maini Mohammad Yaghini Nicolas Papernot FedML 69 104 0 21 Apr 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 290 1,815 0 14 Dec 2020
A Survey on Bias and Fairness in Machine Learning Ninareh Mehrabi Fred Morstatter N. Saxena Kristina Lerman Aram Galstyan SyDa FaML 323 4,212 0 23 Aug 2019
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,959 0 20 Apr 2018
Fair prediction with disparate impact: A study of bias in recidivism prediction instruments Alexandra Chouldechova FaML 207 2,084 0 24 Oct 2016