Probing the Moral Development of Large Language Models through Defining
Issues Test

Probing the Moral Development of Large Language Models through Defining Issues Test

23 September 2023

Aditi Khandelwal

Utkarsh Agarwal

Monojit Choudhury

Papers citing "Probing the Moral Development of Large Language Models through Defining Issues Test"

13 / 13 papers shown

Title
Bridging AI and Carbon Capture: A Dataset for LLMs in Ionic Liquids and CBE Research Gaurab Sarkar Sougata Saha 30 0 0 11 May 2025
Auditing the Ethical Logic of Generative AI Models W. Russell Neuman Chad Coleman Ali Dasdan Safinah Ali Manan Shah ELM LRM 78 1 0 24 Apr 2025
Societal Alignment Frameworks Can Improve LLM Alignment Karolina Stañczak Nicholas Meade Mehar Bhatia Hattie Zhou Konstantin Böttinger ... Timothy P. Lillicrap Ana Marasović Sylvie Delacroix Gillian K. Hadfield Siva Reddy 191 0 0 27 Feb 2025
Evaluating Moral Beliefs across LLMs through a Pluralistic Framework Xuelin Liu Yanfei Zhu Shucheng Zhu Pengyuan Liu Ying Liu Dong Yu 36 1 0 06 Nov 2024
Improving and Assessing the Fidelity of Large Language Models Alignment to Online Communities Minh Duc Hoang Chu Zihao He Rebecca Dorn Kristina Lerman 48 2 0 18 Aug 2024
The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models Bolei Ma Xinpeng Wang Tiancheng Hu Anna Haensch Michael A. Hedderich Barbara Plank Frauke Kreuter ALM 37 2 0 16 Jun 2024
Exploring and steering the moral compass of Large Language Models Alejandro Tlaie LLMSV 32 3 0 27 May 2024
Towards Measuring and Modeling "Culture" in LLMs: A Survey Muhammad Farid Adilazuarda Sagnik Mukherjee Pradhyumna Lavania Siddhant Singh Alham Fikri Aji Jacki OÑeill Ashutosh Modi Monojit Choudhury 67 55 0 05 Mar 2024
Eagle: Ethical Dataset Given from Real Interactions Masahiro Kaneko Danushka Bollegala Timothy Baldwin 44 3 0 22 Feb 2024
Do Moral Judgment and Reasoning Capability of LLMs Change with Language? A Study using the Multilingual Defining Issues Test Aditi Khandelwal Utkarsh Agarwal Kumar Tanmay Monojit Choudhury ELM LRM 30 6 0 03 Feb 2024
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 366 12,003 0 04 Mar 2022
Can Machines Learn Morality? The Delphi Experiment Liwei Jiang Jena D. Hwang Chandra Bhagavatula Ronan Le Bras Jenny T Liang ... Yulia Tsvetkov Oren Etzioni Maarten Sap Regina A. Rini Yejin Choi FaML 127 111 0 14 Oct 2021
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 301 1,610 0 18 Sep 2019