ARGS: Alignment as Reward-Guided Search

23 January 2024

Papers citing "ARGS: Alignment as Reward-Guided Search"

50 / 113 papers shown

Title
TTRL: Test-Time Reinforcement Learning Yuxin Zuo Kaiyan Zhang Li Sheng Li Sheng Xuekai Zhu ... Youbang Sun Zhiyuan Ma Lifan Yuan Ning Ding Bowen Zhou OffRL 388 26 0 22 Apr 2025
A Survey on Personalized Alignment -- The Missing Piece for Large Language Models in Real-World Applications Jian Guan Jian Wu Jia-Nan Li Chuanqi Cheng Wei Wu LM&MA 136 2 0 21 Mar 2025
Is Free Self-Alignment Possible? Dyah Adila Changho Shin Yijing Zhang Frederic Sala MoMe 155 2 0 24 Feb 2025
Drift: Decoding-time Personalized Alignments with Implicit User Preferences Minbeom Kim Kang-il Lee Seongho Joo Hwaran Lee Thibaut Thonet Kyomin Jung AI4TS 178 1 0 20 Feb 2025
Adaptive Concept Bottleneck for Foundation Models Under Distribution Shifts Jihye Choi Jayaram Raghuram Yixuan Li Somesh Jha 148 5 0 18 Dec 2024
DeformPAM: Data-Efficient Learning for Long-horizon Deformable Object Manipulation via Preference-based Action Alignment Wendi Chen Han Xue Fangyuan Zhou Yuan Fang Cewu Lu 85 1 0 15 Oct 2024
GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment Yuancheng Xu Udari Madhushani Sehwag Alec Koppel Sicheng Zhu Bang An Furong Huang Sumitra Ganesh 116 12 0 10 Oct 2024
ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time Yi Ding Bolian Li Ruqi Zhang MLLM 109 13 0 09 Oct 2024
HaloScope: Harnessing Unlabeled LLM Generations for Hallucination Detection Xuefeng Du Chaowei Xiao Yixuan Li HILM 71 25 0 26 Sep 2024
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey Atsuyuki Miyai Jingkang Yang Jingyang Zhang Yifei Ming Sisir Dhakal ... Yixuan Li Hai "Helen" Li Ziwei Liu Toshihiko Yamasaki Kiyoharu Aizawa 98 12 0 31 Jul 2024
Cascade Reward Sampling for Efficient Decoding-Time Alignment Bolian Li Yifan Wang A. Grama Ruqi Zhang Ruqi Zhang AI4TS 103 14 0 24 Jun 2024
When and How Does In-Distribution Label Help Out-of-Distribution Detection? Xuefeng Du Yiyou Sun Yixuan Li 67 9 0 28 May 2024
PICLe: Eliciting Diverse Behaviors from Large Language Models with Persona In-Context Learning Hyeong Kyu Choi Yixuan Li 110 19 0 03 May 2024
Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models Yifei Ming Yixuan Li VLM 107 8 0 02 May 2024
On the Learnability of Out-of-distribution Detection Zhen Fang Yixuan Li Feng Liu Bo Han Jie Lu 27 8 0 07 Apr 2024
Understanding the Learning Dynamics of Alignment with Human Feedback Shawn Im Yixuan Li ALM 68 14 0 27 Mar 2024
Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment Jiong Wang Jiazhao Li Yiquan Li Xiangyu Qi Junjie Hu Yixuan Li P. McDaniel Muhao Chen Bo Li Chaowei Xiao AAML SILM 95 22 0 22 Feb 2024
How Does Unlabeled Data Provably Help Out-of-Distribution Detection? Xuefeng Du Zhen Fang Ilias Diakonikolas Yixuan Li OODD 72 29 0 05 Feb 2024
How Useful is Continued Pre-Training for Generative Unsupervised Domain Adaptation? Rheeya Uppaal Yixuan Li Junjie Hu 107 6 0 31 Jan 2024
A Graph-Theoretic Framework for Understanding Open-World Semi-Supervised Learning Yiyou Sun Zhenmei Shi Yixuan Li OffRL 68 23 0 06 Nov 2023
Learning to Augment Distributions for Out-of-Distribution Detection Qizhou Wang Zhen Fang Yonggang Zhang Feng Liu Yixuan Li Bo Han OODD 98 37 0 03 Nov 2023
Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model H. Deng Colin Raffel 83 42 0 14 Oct 2023
The Trickle-down Impact of Reward (In-)consistency on RLHF Lingfeng Shen Sihao Chen Linfeng Song Lifeng Jin Baolin Peng Haitao Mi Daniel Khashabi Dong Yu 72 23 0 28 Sep 2023
Dream the Impossible: Outlier Imagination with Diffusion Models Xuefeng Du Yiyou Sun Xiaojin Zhu Yixuan Li 65 63 0 23 Sep 2023
When and How Does Known Class Help Discover Unknown Ones? Provable Understanding Through Spectral Analysis Yiyou Sun Zhenmei Shi Yingyu Liang Yixuan Li 71 20 0 09 Aug 2023
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback Stephen Casper Xander Davies Claudia Shi T. Gilbert Jérémy Scheurer ... Erdem Biyik Anca Dragan David M. Krueger Dorsa Sadigh Dylan Hadfield-Menell ALM OffRL 129 517 0 27 Jul 2023
Challenges and Applications of Large Language Models Jean Kaddour J. Harris Maximilian Mozes Herbie Bradley Roberta Raileanu R. McHardy UQCV ALM AAML 69 309 0 19 Jul 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 305 11,894 0 18 Jul 2023
Secrets of RLHF in Large Language Models Part I: PPO Rui Zheng Shihan Dou Songyang Gao Yuan Hua Wei Shen ... Hang Yan Tao Gui Qi Zhang Xipeng Qiu Xuanjing Huang ALM OffRL 104 169 0 11 Jul 2023
Preference Ranking Optimization for Human Alignment Feifan Song Yu Bowen Minghao Li Haiyang Yu Fei Huang Yongbin Li Houfeng Wang ALM 60 265 0 30 Jun 2023
LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models Shizhe Diao Boyao Wang Hanze Dong Kashun Shum Jipeng Zhang Wei Xiong Tong Zhang ALM 61 66 0 21 Jun 2023
Feed Two Birds with One Scone: Exploiting Wild Data for Both Out-of-Distribution Generalization and Detection Haoyue Bai Gregory H. Canal Xuefeng Du Jeongyeol Kwon Robert D. Nowak Yixuan Li OODD 61 47 0 15 Jun 2023
How Does Fine-Tuning Impact Out-of-Distribution Detection for Vision-Language Models? Yifei Ming Yixuan Li OODD VLM 63 41 0 09 Jun 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 361 4,388 0 09 Jun 2023
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training Zeqiu Wu Yushi Hu Weijia Shi Nouha Dziri Alane Suhr Prithviraj Ammanabrolu Noah A. Smith Mari Ostendorf Hannaneh Hajishirzi ALM 145 329 0 02 Jun 2023
Let's Verify Step by Step Hunter Lightman V. Kosaraju Yura Burda Harrison Edwards Bowen Baker Teddy Lee Jan Leike John Schulman Ilya Sutskever K. Cobbe ALM OffRL LRM 191 1,164 0 31 May 2023
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 385 3,981 0 29 May 2023
GRACE: Discriminator-Guided Chain-of-Thought Reasoning Muhammad Khalifa Lajanugen Logeswaran Moontae Lee Ho Hin Lee Lu Wang LRM 49 40 0 24 May 2023
Is Fine-tuning Needed? Pre-trained Language Models Are Near Perfect for Out-of-Domain Detection Rheeya Uppaal Junjie Hu Yixuan Li OODD 182 35 0 22 May 2023
Tree of Thoughts: Deliberate Problem Solving with Large Language Models Shunyu Yao Dian Yu Jeffrey Zhao Izhak Shafran Thomas Griffiths Yuan Cao Karthik Narasimhan LM&Ro LRM AI4CE 143 2,010 0 17 May 2023
A Survey on Out-of-Distribution Detection in NLP Hao Lang Yinhe Zheng Yixuan Li Jian Sun Feiling Huang Yongbin Li 67 25 0 05 May 2023
RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment Hanze Dong Wei Xiong Deepanshu Goyal Yihan Zhang Winnie Chow Boyao Wang Shizhe Diao Jipeng Zhang Kashun Shum Tong Zhang ALM 76 456 0 13 Apr 2023
Toxicity in ChatGPT: Analyzing Persona-assigned Language Models Ameet Deshpande Vishvak Murahari Tanmay Rajpurohit Ashwin Kalyan Karthik Narasimhan LM&MA LLMAG 67 365 0 11 Apr 2023
RRHF: Rank Responses to Align Language Models with Human Feedback without tears Zheng Yuan Hongyi Yuan Chuanqi Tan Wei Wang Songfang Huang Feiran Huang ALM 159 374 0 11 Apr 2023
Rethinking Domain Generalization for Face Anti-spoofing: Separability and Alignment Yiyou Sun Yaojie Liu Xiaoming Liu Yixuan Li Wen-Sheng Chu OOD CVBM 84 63 0 23 Mar 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.4K 14,359 0 15 Mar 2023
Distributionally Robust Optimization with Probabilistic Group Soumya Suvra Ghosal Yixuan Li OOD 49 10 0 10 Mar 2023
Non-Parametric Outlier Synthesis Leitian Tao Xuefeng Du Xiaojin Zhu Yixuan Li OODD 83 106 0 06 Mar 2023
LLaMA: Open and Efficient Foundation Language Models Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux ... Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave Guillaume Lample ALM PILM 1.5K 13,247 0 27 Feb 2023
Chain of Hindsight Aligns Language Models with Feedback Hao Liu Carmelo Sferrazza Pieter Abbeel ALM 80 124 0 06 Feb 2023