Causal ATE Mitigates Unintended Bias in Controlled Text Generation

19 November 2023

Papers citing "Causal ATE Mitigates Unintended Bias in Controlled Text Generation"

14 / 14 papers shown

Title
A New Generation of Perspective API: Efficient Multilingual Character-level Transformers Alyssa Lees Vinh Q. Tran Yi Tay Jeffrey Scott Sorensen Jai Gupta Donald Metzler Lucy Vasserman 59 189 0 22 Feb 2022
A Causal Lens for Controllable Text Generation Zhiting Hu Erran L. Li 59 62 0 22 Jan 2022
DExperts: Decoding-Time Controlled Text Generation with Experts and Anti-Experts Alisa Liu Maarten Sap Ximing Lu Swabha Swayamdipta Chandra Bhagavatula Noah A. Smith Yejin Choi MU 98 371 0 07 May 2021
HateCheck: Functional Tests for Hate Speech Detection Models Paul Röttger B. Vidgen Dong Nguyen Zeerak Talat Helen Z. Margetts J. Pierrehumbert 65 267 0 31 Dec 2020
HateBERT: Retraining BERT for Abusive Language Detection in English Tommaso Caselli Valerio Basile Jelena Mitrović Michael Granitzer 62 368 0 23 Oct 2020
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models Samuel Gehman Suchin Gururangan Maarten Sap Yejin Choi Noah A. Smith 116 1,191 0 24 Sep 2020
GeDi: Generative Discriminator Guided Sequence Generation Ben Krause Akhilesh Deepak Gotmare Bryan McCann N. Keskar Shafiq Joty R. Socher Nazneen Rajani 87 403 0 14 Sep 2020
Don't Stop Pretraining: Adapt Language Models to Domains and Tasks Suchin Gururangan Ana Marasović Swabha Swayamdipta Kyle Lo Iz Beltagy Doug Downey Noah A. Smith VLM AI4CE CLL 128 2,414 0 23 Apr 2020
The State and Fate of Linguistic Diversity and Inclusion in the NLP World Pratik M. Joshi Sebastin Santy A. Budhiraja Kalika Bali Monojit Choudhury LMTD 89 842 0 20 Apr 2020
Measurement and Fairness Abigail Z. Jacobs Hanna M. Wallach 74 387 0 11 Dec 2019
Plug and Play Language Models: A Simple Approach to Controlled Text Generation Sumanth Dathathri Andrea Madotto Janice Lan Jane Hung Eric Frank Piero Molino J. Yosinski Rosanne Liu KELM 106 968 0 04 Dec 2019
Racial Bias in Hate Speech and Abusive Language Detection Datasets Thomas Davidson Debasmita Bhattacharya Ingmar Weber 86 453 0 29 May 2019
Detecting Online Hate Speech Using Context Aware Models Lei Gao Ruihong Huang 56 248 0 20 Oct 2017
Toward Controlled Generation of Text Zhiting Hu Zichao Yang Xiaodan Liang Ruslan Salakhutdinov Eric Xing 146 990 0 02 Mar 2017