Build it Break it Fix it for Dialogue Safety: Robustness from
Adversarial Human Attack

Build it Break it Fix it for Dialogue Safety: Robustness from Adversarial Human Attack

17 August 2019

Bharath Chintagunta

Jason Weston

Papers citing "Build it Break it Fix it for Dialogue Safety: Robustness from Adversarial Human Attack"

9 / 59 papers shown

Title
HateCheck: Functional Tests for Hate Speech Detection Models Paul Röttger B. Vidgen Dong Nguyen Zeerak Talat Helen Z. Margetts J. Pierrehumbert 31 259 0 31 Dec 2020
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models Samuel Gehman Suchin Gururangan Maarten Sap Yejin Choi Noah A. Smith 32 1,130 0 24 Sep 2020
Open-Domain Conversational Agents: Current Progress, Open Problems, and Future Directions Stephen Roller Y-Lan Boureau Jason Weston Antoine Bordes Emily Dinan ... Kurt Shuster Eric Michael Smith Arthur Szlam Jack Urbanek Mary Williamson LLMAG AI4CE 28 51 0 22 Jun 2020
Multi-Dimensional Gender Bias Classification Emily Dinan Angela Fan Ledell Yu Wu Jason Weston Douwe Kiela Adina Williams FaML 14 119 0 01 May 2020
Experience Grounds Language Yonatan Bisk Ari Holtzman Jesse Thomason Jacob Andreas Yoshua Bengio ... Angeliki Lazaridou Jonathan May Aleksandr Nisnevich Nicolas Pinto Joseph P. Turian 19 351 0 21 Apr 2020
Can You Put it All Together: Evaluating Conversational Agents' Ability to Blend Skills Eric Michael Smith Mary Williamson Kurt Shuster Jason Weston Y-Lan Boureau 19 221 0 17 Apr 2020
Beat the AI: Investigating Adversarial Human Annotation for Reading Comprehension Max Bartolo A. Roberts Johannes Welbl Sebastian Riedel Pontus Stenetorp AAML 26 167 0 02 Feb 2020
Queens are Powerful too: Mitigating Gender Bias in Dialogue Generation Emily Dinan Angela Fan Adina Williams Jack Urbanek Douwe Kiela Jason Weston 27 205 0 10 Nov 2019
Machine Learning Suites for Online Toxicity Detection David A. Noever 93 33 0 03 Oct 2018