Papers citing "Constitutional AI: Harmlessness from AI Feedback"

50 / 1,202 papers shown

Title
Effective Proxy for Human Labeling: Ensemble Disagreement Scores in Large Language Models for Industrial NLP Wei Du Laksh Advani Yashmeet Gambhir Daniel J. Perry Prashant Shiralkar Zhengzheng Xing Aaron Colak ALM 62 1 0 11 Sep 2023
$Decolonial AI Alignment: Openness, Viśe\d{s}a-Dharma, and Including Excluded Knowledges$ Decolonial AI Alignment: Openness, Viśe\d{s}a-Dharma, and Including Excluded Knowledges Kush R. Varshney 105 4 0 10 Sep 2023
Towards Reliable and Fluent Large Language Models: Incorporating Feedback Learning Loops in QA Systems Dongyub Lee Taesun Whang Chanhee Lee Heuiseok Lim KELM 72 9 0 08 Sep 2023
Large Language Models as Optimizers Chengrun Yang Xuezhi Wang Yifeng Lu Hanxiao Liu Quoc V. Le Denny Zhou Xinyun Chen ODL 152 434 0 07 Sep 2023
Everyone Deserves A Reward: Learning Customized Human Preferences Pengyu Cheng Jiawen Xie Ke Bai Yong Dai Nan Du 81 36 0 06 Sep 2023
Certifying LLM Safety against Adversarial Prompting Aounon Kumar Chirag Agarwal Suraj Srinivas Aaron Jiaxun Li Soheil Feizi Himabindu Lakkaraju AAML 151 197 0 06 Sep 2023
Cognitive Architectures for Language Agents T. Sumers Shunyu Yao Karthik Narasimhan Thomas Griffiths LLMAG LM&Ro 159 182 0 05 Sep 2023
Donkii: Can Annotation Error Detection Methods Find Errors in Instruction-Tuning Datasets? Leon Weber-Genzel Robert Litschko Ekaterina Artemova Barbara Plank 100 2 0 04 Sep 2023
Open Sesame! Universal Black Box Jailbreaking of Large Language Models Raz Lapid Ron Langberg Moshe Sipper AAML 135 112 0 04 Sep 2023
Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties Taylor Sorensen Liwei Jiang Jena D. Hwang Sydney Levine Valentina Pyatkin ... Kavel Rao Chandra Bhagavatula Maarten Sap J. Tasioulas Yejin Choi SLR 119 60 0 02 Sep 2023
Bias and Fairness in Large Language Models: A Survey Isabel O. Gallegos Ryan Rossi Joe Barrow Md Mehrab Tanjim Sungchul Kim Franck Dernoncourt Tong Yu Ruiyi Zhang Nesreen Ahmed AILaw 140 609 0 02 Sep 2023
Efficient RLHF: Reducing the Memory Usage of PPO Michael Santacroce Yadong Lu Han Yu Yuan-Fang Li Yelong Shen 71 32 0 01 Sep 2023
Let the Models Respond: Interpreting Language Model Detoxification Through the Lens of Prompt Dependence Daniel Scalena Gabriele Sarti Malvina Nissim Elisabetta Fersini 52 0 0 01 Sep 2023
Baseline Defenses for Adversarial Attacks Against Aligned Language Models Neel Jain Avi Schwarzschild Yuxin Wen Gowthami Somepalli John Kirchenbauer Ping Yeh-Chiang Micah Goldblum Aniruddha Saha Jonas Geiping Tom Goldstein AAML 173 410 0 01 Sep 2023
Is the U.S. Legal System Ready for AI's Challenges to Human Values? Inyoung Cheong Aylin Caliskan Tadayoshi Kohno SILM ELM AILaw 68 1 0 30 Aug 2023
Peering Through Preferences: Unraveling Feedback Acquisition for Aligning Large Language Models Hritik Bansal John Dang Aditya Grover ALM 90 21 0 30 Aug 2023
Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? Jingyan Zhou Minda Hu Junan Li Xiaoying Zhang Xixin Wu Irwin King Helen M. Meng LRM 89 29 0 29 Aug 2023
Identifying and Mitigating the Security Risks of Generative AI Clark W. Barrett Bradley L Boyd Ellie Burzstein Nicholas Carlini Brad Chen ... Zulfikar Ramzan Khawaja Shams Basel Alomair Ankur Taly Diyi Yang SILM 125 101 0 28 Aug 2023
AI Deception: A Survey of Examples, Risks, and Potential Solutions Peter S. Park Simon Goldstein Aidan O'Gara Michael Chen Dan Hendrycks 79 162 0 28 Aug 2023
Reinforcement Learning for Generative AI: A Survey Yuanjiang Cao Quan.Z Sheng Julian McAuley Lina Yao SyDa 198 13 0 28 Aug 2023
Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and Vulnerabilities Maximilian Mozes Xuanli He Bennett Kleinberg Lewis D. Griffin 87 87 0 24 Aug 2023
Aligning Language Models with Offline Learning from Human Feedback Jian Hu Li Tao J. Yang Chandler Zhou ALM OffRL 90 7 0 23 Aug 2023
From Instructions to Intrinsic Human Values -- A Survey of Alignment Goals for Big Models Jing Yao Xiaoyuan Yi Xiting Wang Jindong Wang Xing Xie ALM 93 44 0 23 Aug 2023
Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs Ziyi Tang Ruilin Wang Weixing Chen Keze Wang Yang Liu Tianshui Chen Liang Lin Tianshui Chen Liang Lin LRM 51 0 0 23 Aug 2023
Towards an On-device Agent for Text Rewriting Yun Zhu Yinxiao Liu Felix Stahlberg Shankar Kumar Yu-hui Chen Liangchen Luo Lei Shu Renjie Liu Jindong Chen Lei Meng LLMAG 59 7 0 22 Aug 2023
LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete Information from Lateral Thinking Puzzles Shulin Huang Shirong Ma Hai-Tao Zheng Mengzuo Huang Wuhe Zou Weidong Zhang Haitao Zheng LLMAG LRM 115 31 0 21 Aug 2023
Instruction Tuning for Large Language Models: A Survey Shengyu Zhang Linfeng Dong Xiaoya Li Sen Zhang Xiaofei Sun ... Jiwei Li Runyi Hu Tianwei Zhang Leilei Gan Guoyin Wang LM&MA 110 610 0 21 Aug 2023
Refashioning Emotion Recognition Modelling: The Advent of Generalised Large Models Zixing Zhang Liyizhe Peng Tao Pang Jing Han Huan Zhao Bjorn W. Schuller 64 17 0 21 Aug 2023
A Human-on-the-Loop Optimization Autoformalism Approach for Sustainability Ming Jin Bilgehan Sel Fnu Hardeep W. Yin AI4CE 45 2 0 20 Aug 2023
Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models Bilgehan Sel Ahmad S. Al-Tawaha Vanshaj Khattar R. Jia Ming Jin LM&Ro LRM 98 70 0 20 Aug 2023
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct Haipeng Luo Qingfeng Sun Can Xu Pu Zhao Jian-Guang Lou ... Xiubo Geng Qingwei Lin Shifeng Chen Yansong Tang Dongmei Zhang LRM OSLM 299 468 0 18 Aug 2023
Self-Deception: Reverse Penetrating the Semantic Firewall of Large Language Models Zhenhua Wang Wei Xie Kai Chen Baosheng Wang Zhiwen Gui Enze Wang AAML SILM 102 6 0 16 Aug 2023
#InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of Large Language Models Keming Lu Hongyi Yuan Zheng Yuan Runji Lin Junyang Lin Chuanqi Tan Chang Zhou Jingren Zhou ALM LRM 95 77 0 14 Aug 2023
GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher Youliang Yuan Wenxiang Jiao Wenxuan Wang Jen-tse Huang Pinjia He Shuming Shi Zhaopeng Tu SILM 121 285 0 12 Aug 2023
ZYN: Zero-Shot Reward Models with Yes-No Questions for RLAIF Víctor Gallego SyDa 70 4 0 11 Aug 2023
Self-Alignment with Instruction Backtranslation Xian Li Ping Yu Chunting Zhou Timo Schick Omer Levy Luke Zettlemoyer Jason Weston M. Lewis SyDa 102 135 0 11 Aug 2023
On the Unexpected Abilities of Large Language Models S. Nolfi LRM 72 11 0 09 Aug 2023
CLEVA: Chinese Language Models EVAluation Platform Yanyang Li Jianqiao Zhao Duo Zheng Zi-Yuan Hu Zhi Chen ... Yongfeng Huang Shijia Huang Dahua Lin Michael R. Lyu Liwei Wang ALM ELM 100 11 0 09 Aug 2023
Simple synthetic data reduces sycophancy in large language models Jerry W. Wei Da Huang Yifeng Lu Denny Zhou Quoc V. Le 114 74 0 07 Aug 2023
TPTU: Large Language Model-based AI Agents for Task Planning and Tool Usage Jingqing Ruan Yihong Chen Bin Zhang Zhiwei Xu Tianpeng Bao ... Shiwei Shi Hangyu Mao Ziyue Li Xingyu Zeng Rui Zhao LLMAG LM&Ro 123 35 0 07 Aug 2023
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies Liangming Pan Michael Stephen Saxon Wenda Xu Deepak Nathani Xinyi Wang William Yang Wang KELM LRM 116 216 0 06 Aug 2023
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models Zheng Yuan Hongyi Yuan Cheng Li Guanting Dong Keming Lu Chuanqi Tan Chang Zhou Jingren Zhou LRM ALM 127 205 0 03 Aug 2023
XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models Paul Röttger Hannah Rose Kirk Bertie Vidgen Giuseppe Attanasio Federico Bianchi Dirk Hovy ALM ELM AILaw 120 154 0 02 Aug 2023
SurveyLM: A platform to explore emerging value perspectives in augmented language models' behaviors Steve J. Bickley H. F. Chan Bang Dao B. Torgler Son Tran 21 1 0 01 Aug 2023
A Case for AI Safety via Law Jeffrey W. Johnston 89 0 0 31 Jul 2023
Reinforcement Learning for Generative AI: State of the Art, Opportunities and Open Research Challenges Giorgio Franceschelli Mirco Musolesi AI4CE 139 22 0 31 Jul 2023
KoBBQ: Korean Bias Benchmark for Question Answering Jiho Jin Jiseon Kim Nayeon Lee Haneul Yoo Alice Oh Hwaran Lee 109 37 0 31 Jul 2023
HouYi: An open-source large language model specially designed for renewable energy and carbon neutrality field Mingliang Bai Zhihao Zhou Ruidong Wang Yusheng Yang Zizhen Qin Yunxia Chen Chunjin Mu Jinfu Liu Daren Yu 54 2 0 31 Jul 2023
When Large Language Models Meet Personalization: Perspectives of Challenges and Opportunities Jin Chen Zheng Liu Xunpeng Huang Chenwang Wu Qi Liu ... Yuxuan Lei Xiaolong Chen Xingmei Wang Defu Lian Enhong Chen ALM 92 129 0 31 Jul 2023
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback Stephen Casper Xander Davies Claudia Shi T. Gilbert Jérémy Scheurer ... Erdem Biyik Anca Dragan David M. Krueger Dorsa Sadigh Dylan Hadfield-Menell ALM OffRL 155 533 0 27 Jul 2023