Collective Constitutional AI: Aligning a Language Model with Public
Input

Collective Constitutional AI: Aligning a Language Model with Public Input

12 June 2024

Papers citing "Collective Constitutional AI: Aligning a Language Model with Public Input"

19 / 19 papers shown

Title
CARES: Comprehensive Evaluation of Safety and Adversarial Robustness in Medical LLMs Sijia Chen Xiaomin Li Mengxue Zhang Eric Hanchen Jiang Qingcheng Zeng Chen-Hsiang Yu AAML MU ELM 27 0 0 16 May 2025
Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions Saffron Huang Esin Durmus Miles McCain Kunal Handa Alex Tamkin Jerry Hong Michael Stern Arushi Somani Xiuruo Zhang Deep Ganguli VLM 53 1 0 21 Apr 2025
Large Language Models in Numberland: A Quick Test of Their Numerical Reasoning Abilities Roussel Rahman ReLM ELM LRM 46 0 0 31 Mar 2025
A Survey on Personalized Alignment -- The Missing Piece for Large Language Models in Real-World Applications Jian Guan Jian Wu J. Li Chuanqi Cheng Wei Wu LM&MA 74 0 0 21 Mar 2025
LIVS: A Pluralistic Alignment Dataset for Inclusive Public Spaces Rashid Mushkani Shravan Nayak Hugo Berard Allison Cohen Shin Koseki Hadrien Bertrand 54 2 0 27 Feb 2025
Societal Alignment Frameworks Can Improve LLM Alignment Karolina Stañczak Nicholas Meade Mehar Bhatia Hattie Zhou Konstantin Böttinger ... Timothy P. Lillicrap Ana Marasović Sylvie Delacroix Gillian K. Hadfield Siva Reddy 161 0 0 27 Feb 2025
AI Alignment at Your Discretion Maarten Buyl Hadi Khalaf C. M. Verdun Lucas Monteiro Paes Caio Vieira Machado Flavio du Pin Calmon 45 0 0 10 Feb 2025
MLLM-as-a-Judge for Image Safety without Human Labeling Zhenting Wang Shuming Hu Shiyu Zhao Xiaowen Lin F. Xu ... Nan Jiang Lingjuan Lyu Shiqing Ma Dimitris N. Metaxas Ankit Jain 179 2 0 31 Dec 2024
Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements Jingyu Zhang Ahmed Elgohary Ahmed Magooda Daniel Khashabi Benjamin Van Durme 150 2 0 11 Oct 2024
Moral Alignment for LLM Agents Elizaveta Tennant Stephen Hailes Mirco Musolesi 45 1 0 02 Oct 2024
AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents Zhe Su Xuhui Zhou Sanketh Rangreji Anubha Kabra Julia Mendelsohn Faeze Brahman Maarten Sap LLMAG 106 3 0 13 Sep 2024
Acceptable Use Policies for Foundation Models Kevin Klyman 31 14 0 29 Aug 2024
Legal Minds, Algorithmic Decisions: How LLMs Apply Constitutional Principles in Complex Scenarios Camilla Bignotti C. Camassa AILaw ELM 48 1 0 29 Jul 2024
Participation in the age of foundation models Harini Suresh Emily Tseng Meg Young Mary L. Gray Emma Pierson Karen Levy 44 20 0 29 May 2024
Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback Vincent Conitzer Rachel Freedman J. Heitzig Wesley H. Holliday Bob M. Jacobs ... Eric Pacuit Stuart Russell Hailey Schoelkopf Emanuel Tewolde W. Zwicker 43 28 0 16 Apr 2024
The Participatory Turn in AI Design: Theoretical Foundations and the Current State of Practice Fernando Delgado Stephen Yang Michael A. Madaio Qian Yang 76 100 0 02 Oct 2023
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned Deep Ganguli Liane Lovitt John Kernion Amanda Askell Yuntao Bai ... Nicholas Joseph Sam McCandlish C. Olah Jared Kaplan Jack Clark 231 446 0 23 Aug 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 339 12,003 0 04 Mar 2022
Can Machines Learn Morality? The Delphi Experiment Liwei Jiang Jena D. Hwang Chandra Bhagavatula Ronan Le Bras Jenny T Liang ... Yulia Tsvetkov Oren Etzioni Maarten Sap Regina A. Rini Yejin Choi FaML 127 111 0 14 Oct 2021