Title
BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset Jiaming Ji Mickel Liu Juntao Dai Xuehai Pan Chi Zhang Ce Bian Chi Zhang Ruiyang Sun Yizhou Wang Yaodong Yang ALM 30 413 0 10 Jul 2023
Improving Prototypical Visual Explanations with Reward Reweighing, Reselection, and Retraining Aaron J. Li Robin Netzorg Zhihan Cheng Zhuoqin Zhang Bin Yu 22 3 0 08 Jul 2023
PREADD: Prefix-Adaptive Decoding for Controlled Text Generation Jonathan Pei Kevin Kaichuang Yang Dan Klein 49 21 0 06 Jul 2023
Style Over Substance: Evaluation Biases for Large Language Models Minghao Wu Alham Fikri Aji ALM ELM 32 43 0 06 Jul 2023
Jailbroken: How Does LLM Safety Training Fail? Alexander Wei Nika Haghtalab Jacob Steinhardt 127 856 0 05 Jul 2023
Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks Zhaofeng Wu Linlu Qiu Alexis Ross Ekin Akyürek Boyuan Chen Bailin Wang Najoung Kim Jacob Andreas Yoon Kim LRM ReLM 63 197 0 05 Jul 2023
Scaling Laws Do Not Scale Fernando Diaz Michael A. Madaio 23 8 0 05 Jul 2023
Optimal and Efficient Binary Questioning for Human-in-the-Loop Annotation Franco Marchesoni-Acland Jean-Michel Morel J. Kherroubi Gabriele Facciolo 29 0 0 04 Jul 2023
SCITUNE: Aligning Large Language Models with Scientific Multimodal Instructions Sameera Horawalavithana Sai Munikoti Ian Stewart Henry Kvinge MLLM 26 20 0 03 Jul 2023
BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained Transformer Z. Li Shitou Zhang Hai Zhao Yifei Yang Dongjie Yang LM&MA 19 14 0 01 Jul 2023
Let Me Teach You: Pedagogical Foundations of Feedback for Language Models Beatriz Borges Niket Tandon Tanja Käser Antoine Bosselut 31 4 0 01 Jul 2023
Preference Ranking Optimization for Human Alignment Feifan Song Yu Bowen Minghao Li Haiyang Yu Fei Huang Yongbin Li Houfeng Wang ALM 34 240 0 30 Jun 2023
Towards Measuring the Representation of Subjective Global Opinions in Language Models Esin Durmus Karina Nyugen Thomas I. Liao Nicholas Schiefer Amanda Askell ... Alex Tamkin Janel Thamkul Jared Kaplan Jack Clark Deep Ganguli 46 213 0 28 Jun 2023
Leveraging GPT-4 for Food Effect Summarization to Enhance Product-Specific Guidance Development via Iterative Prompting Yiwen Shi Ping Ren Jing Wang Biao Han Taha ValizadehAslani Felix Agbavor Yi Zhang Meng Hu Liang Zhao Hualou Liang 33 17 0 28 Jun 2023
Is RLHF More Difficult than Standard RL? Yuanhao Wang Qinghua Liu Chi Jin OffRL 19 58 0 25 Jun 2023
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models Neel Jain Khalid Saifullah Yuxin Wen John Kirchenbauer Manli Shu Aniruddha Saha Micah Goldblum Jonas Geiping Tom Goldstein ALM ELM 38 23 0 23 Jun 2023
System-Level Natural Language Feedback Weizhe Yuan Kyunghyun Cho Jason Weston 41 5 0 23 Jun 2023
ToolQA: A Dataset for LLM Question Answering with External Tools Yuchen Zhuang Yue Yu Kuan-Chieh Wang Haotian Sun Chao Zhang ELM LLMAG 33 217 0 23 Jun 2023
Visual Adversarial Examples Jailbreak Aligned Large Language Models Xiangyu Qi Kaixuan Huang Ashwinee Panda Peter Henderson Mengdi Wang Prateek Mittal AAML 30 138 0 22 Jun 2023
Apolitical Intelligence? Auditing Delphi's responses on controversial political issues in the US J. H. Rystrøm 24 0 0 22 Jun 2023
LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models Shizhe Diao Rui Pan Hanze Dong Kashun Shum Jipeng Zhang Wei Xiong Tong Zhang ALM 30 63 0 21 Jun 2023
OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents Hugo Laurenccon Lucile Saulnier Léo Tronchon Stas Bekman Amanpreet Singh ... Siddharth Karamcheti Alexander M. Rush Douwe Kiela Matthieu Cord Victor Sanh 25 231 0 21 Jun 2023
Opportunities and Risks of LLMs for Scalable Deliberation with Polis Christopher T. Small Ivan Vendrov Esin Durmus Hadjar Homaei Elizabeth Barry Julien Cornebise Ted Suzman Deep Ganguli Colin Megill 35 27 0 20 Jun 2023
Learning to Generate Better Than Your LLM Jonathan D. Chang Kianté Brantley Rajkumar Ramamurthy Dipendra Kumar Misra Wen Sun 27 42 0 20 Jun 2023
The Importance of Human-Labeled Data in the Era of LLMs Yang Liu ALM 17 8 0 18 Jun 2023
Aligning Synthetic Medical Images with Clinical Knowledge using Human Feedback Shenghuan Sun Gregory M. Goldgof A. Butte Ahmed Alaa MedIm 27 12 0 16 Jun 2023
Inverse Scaling: When Bigger Isn't Better I. R. McKenzie Alexander Lyzhov Michael Pieler Alicia Parrish Aaron Mueller ... Yuhui Zhang Zhengping Zhou Najoung Kim Sam Bowman Ethan Perez 41 128 0 15 Jun 2023
Explore, Establish, Exploit: Red Teaming Language Models from Scratch Stephen Casper Jason Lin Joe Kwon Gatlen Culp Dylan Hadfield-Menell AAML 21 85 0 15 Jun 2023
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models Peng Xu Wenqi Shao Kaipeng Zhang Peng Gao Shuo Liu Meng Lei Fanqing Meng Siyuan Huang Yu Qiao Ping Luo ELM MLLM 41 159 0 15 Jun 2023
MiniLLM: Knowledge Distillation of Large Language Models Yuxian Gu Li Dong Furu Wei Minlie Huang ALM 44 77 0 14 Jun 2023
AutoML in the Age of Large Language Models: Current Challenges, Future Opportunities and Risks Alexander Tornede Difan Deng Theresa Eimer Joseph Giovanelli Aditya Mohan ... Sarah Segel Daphne Theodorakopoulos Tanja Tornede Henning Wachsmuth Marius Lindauer 41 23 0 13 Jun 2023
Can ChatGPT Enable ITS? The Case of Mixed Traffic Control via Reinforcement Learning Michael Villarreal Bibek Poudel Weizi Li 29 24 0 13 Jun 2023
Boosting Language Models Reasoning with Chain-of-Knowledge Prompting Rongxiang Weng Qiushi Sun Xiang Li Ming Gao ReLM LRM 26 65 0 10 Jun 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 56 3,879 0 09 Jun 2023
When to Show a Suggestion? Integrating Human Feedback in AI-Assisted Programming Hussein Mozannar Gagan Bansal Adam Fourney Eric Horvitz 42 26 0 08 Jun 2023
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models Yew Ken Chia Pengfei Hong Lidong Bing Soujanya Poria ELM 33 63 0 07 Jun 2023
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources Yizhong Wang Hamish Ivison Pradeep Dasigi Jack Hessel Tushar Khot ... David Wadden Kelsey MacMillan Noah A. Smith Iz Beltagy Hannaneh Hajishirzi ALM ELM 36 370 0 07 Jun 2023
Improving Open Language Models by Learning from Organic Interactions Jing Xu Da Ju Joshua Lane M. Komeili Eric Michael Smith ... Rashel Moritz Sainbayar Sukhbaatar Y-Lan Boureau Jason Weston Kurt Shuster 30 9 0 07 Jun 2023
Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards Alexandre Ramé Guillaume Couairon Mustafa Shukor Corentin Dancette Jean-Baptiste Gaya Laure Soulier Matthieu Cord MoMe 35 136 0 07 Jun 2023
Prompt Space Optimizing Few-shot Reasoning Success with Large Language Models Fobo Shi Peijun Qing Ke Wang Nan Wang Youbo Lei H. Lu Xiaodong Lin Duantengchuan Li VLM ReLM LLMAG LRM 34 11 0 06 Jun 2023
PEARL: Zero-shot Cross-task Preference Alignment and Robust Reward Learning for Robotic Manipulation Runze Liu Yali Du Fengshuo Bai Jiafei Lyu Xiu Li 35 6 0 06 Jun 2023
Transition Role of Entangled Data in Quantum Machine Learning Xinbiao Wang Yuxuan Du Zhuozhuo Tu Yong Luo Xiao Yuan Dacheng Tao 53 8 0 06 Jun 2023
Inference-Time Intervention: Eliciting Truthful Answers from a Language Model Kenneth Li Oam Patel Fernanda Viégas Hanspeter Pfister Martin Wattenberg KELM HILM 58 495 0 06 Jun 2023
Uncertainty in Natural Language Processing: Sources, Quantification, and Applications Mengting Hu Zhen Zhang Shiwan Zhao Minlie Huang Bingzhe Wu BDL 39 35 0 05 Jun 2023
Fine-Tuning Language Models with Advantage-Induced Policy Alignment Banghua Zhu Hiteshi Sharma Felipe Vieira Frujeri Shi Dong Chenguang Zhu Michael I. Jordan Jiantao Jiao OSLM 36 39 0 04 Jun 2023
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training Zeqiu Wu Yushi Hu Weijia Shi Nouha Dziri Alane Suhr Prithviraj Ammanabrolu Noah A. Smith Mari Ostendorf Hannaneh Hajishirzi ALM 53 305 0 02 Jun 2023
The ethical ambiguity of AI data enrichment: Measuring gaps in research ethics norms and practices Will Hawkins Brent Mittelstadt 57 10 0 01 Jun 2023
Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering Wenjin Wang Yunhao Li Yixin Ou Yin Zhang VLM 31 24 0 01 Jun 2023
Preference-grounded Token-level Guidance for Language Model Fine-tuning Shentao Yang Shujian Zhang Congying Xia Yihao Feng Caiming Xiong Mi Zhou 29 23 0 01 Jun 2023
Thought Cloning: Learning to Think while Acting by Imitating Human Thinking Shengran Hu Jeff Clune LM&Ro OffRL LRM AI4CE 45 27 0 01 Jun 2023