Ethical-Advice Taker: Do Language Models Understand Natural Language
Interventions?

Ethical-Advice Taker: Do Language Models Understand Natural Language Interventions?

2 June 2021

Daniel Khashabi

Ashish Sabharwal

Papers citing "Ethical-Advice Taker: Do Language Models Understand Natural Language Interventions?"

10 / 10 papers shown

Title
Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs Angelina Wang Michelle Phan Daniel E. Ho Sanmi Koyejo 54 2 0 04 Feb 2025
Smaller Large Language Models Can Do Moral Self-Correction Guangliang Liu Zhiyu Xue Rongrong Wang K. Johnson Kristen Marie Johnson LRM 34 0 0 30 Oct 2024
Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements Jingyu Zhang Ahmed Elgohary Ahmed Magooda Daniel Khashabi Benjamin Van Durme 174 2 0 11 Oct 2024
Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes Damin Zhang Yi Zhang Geetanjali Bihani Julia Taylor Rayz 53 2 0 06 May 2024
The Capacity for Moral Self-Correction in Large Language Models Deep Ganguli Amanda Askell Nicholas Schiefer Thomas I. Liao Kamil.e Lukovsiut.e ... Tom B. Brown C. Olah Jack Clark Sam Bowman Jared Kaplan LRM ReLM 45 159 0 15 Feb 2023
Constitutional AI: Harmlessness from AI Feedback Yuntao Bai Saurav Kadavath Sandipan Kundu Amanda Askell John Kernion ... Dario Amodei Nicholas Joseph Sam McCandlish Tom B. Brown Jared Kaplan SyDa MoMe 106 1,487 0 15 Dec 2022
SafeText: A Benchmark for Exploring Physical Safety in Language Models Sharon Levy Emily Allaway Melanie Subbiah Lydia B. Chilton D. Patton Kathleen McKeown William Yang Wang 59 40 0 18 Oct 2022
The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks Nikil Selvam Sunipa Dev Daniel Khashabi Tushar Khot Kai-Wei Chang ALM 24 25 0 18 Oct 2022
On Measures of Biases and Harms in NLP Sunipa Dev Emily Sheng Jieyu Zhao Aubrie Amstutz Jiao Sun ... M. Sanseverino Jiin Kim Akihiro Nishi Nanyun Peng Kai-Wei Chang 31 80 0 07 Aug 2021
A Review of Some Techniques for Inclusion of Domain-Knowledge into Deep Neural Networks T. Dash Sharad Chitlangia Aditya Ahuja A. Srinivasan 30 127 0 21 Jul 2021