Title
$f$ -PO: Generalizing Preference Optimization with $f$ -divergence Minimization Jiaqi Han Mingjian Jiang Yuxuan Song J. Leskovec Stefano Ermon 144 6 0 29 Oct 2024
A Perspective for Adapting Generalist AI to Specialized Medical AI Applications and Their Challenges Zhenting Wang Hanyin Wang Benjamin Danek Ying Li Christina Mack Hoifung Poon Y. Wang Pranav Rajpurkar Jimeng Sun LM&MA 86 1 0 28 Oct 2024
Hierarchical Knowledge Graph Construction from Images for Scalable E-Commerce Zhantao Yang Han Zhang Fangyi Chen Anudeepsekhar Bolimera Marios Savvides 63 0 0 28 Oct 2024
An Actor-Critic Approach to Boosting Text-to-SQL Large Language Model Ziyang Zheng Haipeng Jing Canyu Rui A. Hamdulla D. Wang LRM 90 1 0 28 Oct 2024
Reward Modeling with Weak Supervision for Language Models Ben Hauptvogel Malte Ostendorff Georg Rehm Sebastian Möller OffRL 31 0 0 28 Oct 2024
Matryoshka: Learning to Drive Black-Box LLMs with LLMs Changhao Li Yuchen Zhuang Rushi Qiang Haotian Sun H. Dai Chao Zhang Bo Dai LRM 53 6 0 28 Oct 2024
Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection M. Rahman Fan Wu A. Cuzzocrea S. Ahamed AAML 70 4 0 28 Oct 2024
David and Goliath: Small One-step Model Beats Large Diffusion with Score Post-training Weijian Luo C. Zhang Debing Zhang Zhengyang Geng 106 3 0 28 Oct 2024
LoRA vs Full Fine-tuning: An Illusion of Equivalence Reece Shuttleworth Jacob Andreas Antonio Torralba Pratyusha Sharma 150 19 0 28 Oct 2024
Transferable Post-training via Inverse Value Learning Xinyu Lu Xueru Wen Yaojie Lu Bowen Yu Hongyu Lin Haiyang Yu Le Sun Jia Zheng Yongbin Li 49 1 0 28 Oct 2024
FALCON: Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization system Zeyuan Li Yangfan He Lewei He Jianhui Wang Tianyu Shi Bin Lei Tianyu Shi Qiuwu Chen ALM 181 6 0 28 Oct 2024
L3Ms -- Lagrange Large Language Models Guneet S. Dhillon Xingjian Shi Yee Whye Teh Alex Smola 479 0 0 28 Oct 2024
BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks Yunhan Zhao Xiang Zheng Lin Luo Yige Li Xingjun Ma Yu-Gang Jiang VLM AAML 117 7 0 28 Oct 2024
Rethinking Data Synthesis: A Teacher Model Training Recipe with Interpretation Yifang Chen David Zhu SyDa 60 0 0 27 Oct 2024
Learning from Response not Preference: A Stackelberg Approach for LLM Detoxification using Non-parallel Data Xinhong Xie Tao Li Quanyan Zhu 66 3 0 27 Oct 2024
Fast Best-of-N Decoding via Speculative Rejection Hanshi Sun Momin Haider Ruiqi Zhang Huitao Yang Jiahao Qiu Ming Yin Mengdi Wang Peter L. Bartlett Andrea Zanette BDL 132 52 0 26 Oct 2024
Limitations of the LLM-as-a-Judge Approach for Evaluating LLM Outputs in Expert Knowledge Tasks Annalisa Szymanski Noah Ziems Heather A. Eicher-Miller Tao Li Meng Jiang Ronald A Metoyer ALM ELM 154 29 0 26 Oct 2024
Rethinking the Uncertainty: A Critical Review and Analysis in the Era of Large Language Models Mohammad Beigi Sijia Wang Ying Shen Zihao Lin Adithya Kulkarni ... Ming Jin Jin-Hee Cho Dawei Zhou Chang-Tien Lu Lifu Huang 94 1 0 26 Oct 2024
GFlowNet Fine-tuning for Diverse Correct Solutions in Mathematical Reasoning Tasks Ryoichi Takase Masaya Tsunokake Yuta Tsuchiya Shota Inuzuka LRM 84 5 0 26 Oct 2024
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization Zhecheng Li Yijiao Wang Bryan Hooi Yujun Cai Naifan Cheung Nanyun Peng Kai-Wei Chang 204 1 0 26 Oct 2024
Vulnerability of LLMs to Vertically Aligned Text Manipulations Zhecheng Li Yijiao Wang Bryan Hooi Yujun Cai Zhen Xiong Nanyun Peng Kai-Wei Chang 152 1 0 26 Oct 2024
SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement Antonis Antoniades Albert Örwall Kexun Zhang Yuxi Xie Anirudh Goyal William Yang Wang LLMAG 186 22 0 26 Oct 2024
Cobblestone: Iterative Automation for Formal Verification Saketh Ram Kasibatla Arpan Agarwal Yuriy Brun Sorin Lerner Talia Ringer Emily First 43 1 0 25 Oct 2024
2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision Shilong Li Yancheng He Hui Huang Xingyuan Bu Qingbin Liu Hangyu Guo Weixun Wang Jihao Gu Wenbo Su Bo Zheng 100 7 0 25 Oct 2024
FLAASH: Flow-Attention Adaptive Semantic Hierarchical Fusion for Multi-Modal Tobacco Content Analysis N. V. R. Chappa P. Dobbs Bhiksha Raj Khoa Luu 99 3 0 25 Oct 2024
Improving Inverse Folding for Peptide Design with Diversity-regularized Direct Preference Optimization Ryan Park Darren J. Hsu C. Brian Roland Maria Korshunova Chen Tessler Shie Mannor Olivia Viessmann Bruno Trentini 79 4 0 25 Oct 2024
AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios Xinyi Mou Jingcong Liang Jiayu Lin Wei Wei Xiawei Liu ... Rong Ye Lei Chen Haoyu Kuang Xuanjing Huang Zhongyu Wei 71 10 0 25 Oct 2024
Any Other Thoughts, Hedgehog? Linking Deliberation Chains in Collaborative Dialogues Abhijnan Nath Videep Venkatesha Mariah Bradford Avyakta Chelle Austin Youngren Carlos Mabrey Nathaniel Blanchard Nikhil Krishnaswamy 88 3 0 25 Oct 2024
Natural Language Processing for the Legal Domain: A Survey of Tasks, Datasets, Models, and Challenges Farid Ariai Gianluca Demartini ELM AILaw VLM 109 7 0 25 Oct 2024
Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization Xiyue Peng Hengquan Guo Jiawei Zhang Dongqing Zou Ziyu Shao Honghao Wei Xin Liu 142 4 0 25 Oct 2024
No Free Lunch: Fundamental Limits of Learning Non-Hallucinating Generative Models Changlong Wu A. Grama Wojciech Szpankowski 64 1 0 24 Oct 2024
Inference time LLM alignment in single and multidomain preference spectrum Siyang Song Zheng Qi Nikolaos Pappas Srikanth Doss Kadarundalagi Raghuram Doss Monica Sunkara Kishaloy Halder Manuel Mager Yassine Benajiba 57 1 0 24 Oct 2024
Adversarial Attacks on Large Language Models Using Regularized Relaxation Samuel Jacob Chacko Sajib Biswas Chashi Mahiul Islam Fatema Tabassum Liza Xiuwen Liu AAML 87 3 0 24 Oct 2024
Visual Text Matters: Improving Text-KVQA with Visual Text Entity Knowledge-aware Large Multimodal Assistant A. S. Penamakuri Anand Mishra 123 1 0 24 Oct 2024
RSA-Control: A Pragmatics-Grounded Lightweight Controllable Text Generation Framework Yifan Wang Vera Demberg 72 1 0 24 Oct 2024
OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning Xiaoqiang Wang Bang Liu LLMAG LM&Ro LRM 123 12 0 24 Oct 2024
Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks Graziano A. Manduzio Federico A. Galatolo M. G. Cimino Enzo Pasquale Scilingo Lorenzo Cominelli LRM 45 1 0 24 Oct 2024
Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance Omer Nahum Nitay Calderon Orgad Keller Idan Szpektor Roi Reichart 79 4 0 24 Oct 2024
DeCoRe: Decoding by Contrasting Retrieval Heads to Mitigate Hallucinations Aryo Pradipta Gema Chen Jin Ahmed Abdulaal Tom Diethe Philip Teare Beatrice Alex Pasquale Minervini Amrutha Saseendran 102 6 0 24 Oct 2024
From Imitation to Introspection: Probing Self-Consciousness in Language Models Sirui Chen Shu Yu Shengjie Zhao Chaochao Lu MILM LRM 166 4 0 24 Oct 2024
BATON: Enhancing Batch-wise Inference Efficiency for Large Language Models via Dynamic Re-batching Peizhuang Cong Qizhi Chen Haochen Zhao Tong Yang KELM 82 2 0 24 Oct 2024
TripCast: Pre-training of Masked 2D Transformers for Trip Time Series Forecasting Yuhua Liao Zetian Wang Peng Wei Qiangqiang Nie Zhenhua Zhang AI4TS 45 0 0 24 Oct 2024
LOGO -- Long cOntext aliGnment via efficient preference Optimization Zecheng Tang Zechen Sun Juntao Li Qiaoming Zhu Min Zhang 86 2 0 24 Oct 2024
Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs Chris Yuhao Liu Liang Zeng Qingbin Liu Rui Yan Jujie He Chaojie Wang Shuicheng Yan Yang Liu Yahui Zhou AI4TS 138 116 0 24 Oct 2024
Decoding on Graphs: Faithful and Sound Reasoning on Knowledge Graphs through Generation of Well-Formed Chains Keliang Li Tianhua Zhang Xixin Wu Hongyin Luo James Glass Helen Meng 73 5 0 24 Oct 2024
Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences Weijian Luo EGVM 133 9 0 24 Oct 2024
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback Lester James V. Miranda Yizhong Wang Yanai Elazar Sachin Kumar Valentina Pyatkin Faeze Brahman Noah A. Smith Hannaneh Hajishirzi Pradeep Dasigi 153 12 0 24 Oct 2024
ADVLLM: Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities Chung-En Sun Xiaodong Liu Weiwei Yang Tsui-Wei Weng Hao Cheng Aidan San Michel Galley J. Gao 145 2 0 24 Oct 2024
Improving Model Factuality with Fine-grained Critique-based Evaluator Yiqing Xie Wenxuan Zhou Pradyot Prakash Di Jin Yuning Mao ... Sinong Wang Han Fang Carolyn Rose Daniel Fried Hejia Zhang HILM 175 8 0 24 Oct 2024
Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies Liwen Wang Sheng Chen Linnan Jiang Shu Pan Runze Cai Sen Yang Fei Yang 197 7 0 24 Oct 2024