PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs

20 February 2024

Peng Li

Ming Yan

Ji Zhang

Fei Huang

Yang Liu

ALM

ArXiv PDF HTML

Papers citing "PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs"

22 / 22 papers shown

Title
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models Zixiang Chen Yihe Deng Huizhuo Yuan Kaixuan Ji Quanquan Gu SyDa 67 300 0 02 Jan 2024
Retrieval-Augmented Generation for Large Language Models: A Survey Yunfan Gao Yun Xiong Xinyu Gao Kangxiang Jia Jinliu Pan Yuxi Bi Yi Dai Jiawei Sun Meng Wang Haofen Wang 3DV RALM 87 1,658 1 18 Dec 2023
ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent Renat Aksitov Sobhan Miryoosefi Zong-xiao Li Daliang Li Sheila Babayan ... Sushant Prakash Pranesh Srinivasan Manzil Zaheer Felix X. Yu Sanjiv Kumar LRM ReLM LLMAG KELM 38 47 0 15 Dec 2023
Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision Collin Burns Pavel Izmailov Jan Hendrik Kirchner Bowen Baker Leo Gao ... Adrien Ecoffet Manas Joglekar Jan Leike Ilya Sutskever Jeff Wu ELM 64 280 0 14 Dec 2023
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! Xiangyu Qi Yi Zeng Tinghao Xie Pin-Yu Chen Ruoxi Jia Prateek Mittal Peter Henderson SILM 96 571 0 05 Oct 2023
Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization Weiran Yao Shelby Heinecke Juan Carlos Niebles Zhiwei Liu Yihao Feng ... Ran Xu P. Mùi Haiquan Wang Caiming Xiong Silvio Savarese LLMAG LM&Ro 43 77 0 04 Aug 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 197 11,484 0 18 Jul 2023
SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks Bill Yuchen Lin Yicheng Fu Karina Yang Faeze Brahman Shiyu Huang Chandra Bhagavatula Prithviraj Ammanabrolu Yejin Choi Xiang Ren LLMAG LM&Ro LRM 50 142 0 27 May 2023
Inference-Time Policy Adapters (IPA): Tailoring Extreme-Scale LMs without Fine-tuning Ximing Lu Faeze Brahman Peter West Jaehun Jang Khyathi Chandu ... Bill Yuchen Lin Skyler Hallinan Xiang Ren Sean Welleck Yejin Choi 83 28 0 24 May 2023
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes Lokesh Nagalapatti Chun-Liang Li Chih-Kuan Yeh Hootan Nakhost Yasuhisa Fujii Alexander Ratner Ranjay Krishna Chen-Yu Lee Tomas Pfister ALM 254 526 0 03 May 2023
ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning Viet Dac Lai Nghia Trung Ngo Amir Pouran Ben Veyseh Hieu Man Franck Dernoncourt Trung Bui Thien Huu Nguyen ELM LM&MA 41 279 0 12 Apr 2023
ChatGPT: Jack of all trades, master of none Jan Kocoñ Igor Cichecki Oliwier Kaszyca Mateusz Kochanek Dominika Szydło ... Maciej Piasecki Lukasz Radliñski Konrad Wojtasik Stanislaw Wo'zniak Przemyslaw Kazienko AI4MH 75 544 0 21 Feb 2023
Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT Qihuang Zhong Liang Ding Juhua Liu Bo Du Dacheng Tao AI4MH 86 241 0 19 Feb 2023
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 337 2,709 0 06 Oct 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 677 12,525 0 04 Mar 2022
What Makes Good In-Context Examples for GPT- $3$ ? Jiachang Liu Dinghan Shen Yizhe Zhang Bill Dolan Lawrence Carin Weizhu Chen AAML RALM 324 1,343 0 17 Jan 2021
Dialogue Graph Modeling for Conversational Machine Reading Siru Ouyang Zhuosheng Zhang Hai Zhao 44 42 0 29 Dec 2020
TweetEval: Unified Benchmark and Comparative Evaluation for Tweet Classification Francesco Barbieri Jose Camacho-Collados Leonardo Neves Luis Espinosa-Anke VLM 46 710 0 23 Oct 2020
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 467 41,106 0 28 May 2020
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 420 1,664 0 18 Sep 2019
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 602 11,979 0 27 Aug 2019
Distilling the Knowledge in a Neural Network Geoffrey E. Hinton Oriol Vinyals J. Dean FedML 225 19,448 0 09 Mar 2015