Title
A Probabilistic Framework for LLM Hallucination Detection via Belief Tree Propagation Bairu Hou Yang Zhang Jacob Andreas Shiyu Chang 161 7 0 11 Jun 2024
The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approaches Bhashithe Abeysinghe Ruhan Circi ELM 108 23 0 05 Jun 2024
ACCORD: Closing the Commonsense Measurability Gap François Roewer-Després Jinyue Feng Zining Zhu Frank Rudzicz LRM 130 0 0 04 Jun 2024
Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools Varun Magesh Faiz Surani Matthew Dahl Mirac Suzgun Christopher D. Manning Daniel E. Ho HILM ELM AILaw 77 80 0 30 May 2024
Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities Alexander Nikitin Jannik Kossen Yarin Gal Pekka Marttinen UQCV 136 45 0 30 May 2024
VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos Ziyang Wang Shoubin Yu Elias Stengel-Eskin Jaehong Yoon Feng Cheng Gedas Bertasius Mohit Bansal 150 70 0 29 May 2024
Perturbation-Restrained Sequential Model Editing Junjie Ma Hong Wang Haoyang Xu Zhen-Hua Ling Jia-Chen Gu KELM 167 11 0 27 May 2024
Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization Beitao Chen Xinyu Lyu Lianli Gao Jingkuan Song Hengtao Shen MLLM 185 12 0 24 May 2024
Stochastic Online Conformal Prediction with Semi-Bandit Feedback Haosen Ge Hamsa Bastani Osbert Bastani 222 2 0 22 May 2024
Utilizing GPT to Enhance Text Summarization: A Strategy to Minimize Hallucinations Hassan Shakil Zeydy Ortiz Grant C. Forbes 91 3 0 07 May 2024
Supporting Business Document Workflows via Collection-Centric Information Foraging with Large Language Models Raymond Fok Nedim Lipka Tong Sun Alexa F. Siu 79 7 0 02 May 2024
Towards a Holistic Evaluation of LLMs on Factual Knowledge Recall Jiaqing Yuan Lin Pan Chung-Wei Hang Jiang Guo Jiarong Jiang Bonan Min Patrick Ng Zhiguo Wang HILM ELM 87 4 0 24 Apr 2024
Interactive Analysis of LLMs using Meaningful Counterfactuals Furui Cheng Vilém Zouhar Robin Shing Moon Chan Daniel Fürst Hendrik Strobelt Mennatallah El-Assady 128 11 0 23 Apr 2024
From Matching to Generation: A Survey on Generative Information Retrieval Xiaoxi Li Jiajie Jin Yujia Zhou Yuyao Zhang Peitian Zhang Yutao Zhu Zhicheng Dou 3DV 212 61 0 23 Apr 2024
MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory Ali Modarressi Abdullatif Köksal Ayyoob Imani Mohsen Fayyaz Hinrich Schütze KELM 196 11 0 17 Apr 2024
ClashEval: Quantifying the tug-of-war between an LLM's internal prior and external evidence Kevin Wu Eric Wu James Zou AAML 167 48 0 16 Apr 2024
Anatomy of Industrial Scale Multilingual ASR Francis McCann Ramirez Luka Chkhetiani Andrew Ehrenberg R. McHardy Rami Botros ... Ahmed Efty Daniel McCrystal Sam Flamini Domenic Donato Takuya Yoshioka 94 12 0 15 Apr 2024
Online Safety Analysis for LLMs: a Benchmark, an Assessment, and a Path Forward Xuan Xie Jiayang Song Zhehua Zhou Yuheng Huang Da Song Lei Ma OffRL 128 6 0 12 Apr 2024
Best Practices and Lessons Learned on Synthetic Data for Language Models Ruibo Liu Jerry W. Wei Fangyu Liu Chenglei Si Yanzhe Zhang ... Steven Zheng Daiyi Peng Diyi Yang Denny Zhou Andrew M. Dai SyDa EgoV 126 96 0 11 Apr 2024
Behavior Trees Enable Structured Programming of Language Model Agents Richard Kelley AI4CE LM&Ro LLMAG 94 0 0 11 Apr 2024
RAR-b: Reasoning as Retrieval Benchmark Chenghao Xiao G. Thomas Al Moubayed LRM RALM 143 12 0 09 Apr 2024
Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data Jingyu Zhang Marc Marone Tianjian Li Benjamin Van Durme Daniel Khashabi 193 9 0 05 Apr 2024
PRobELM: Plausibility Ranking Evaluation for Language Models Moy Yuan Chenxi Whitehouse Eric Chamoun Rami Aly Andreas Vlachos 189 5 0 04 Apr 2024
Vocabulary Attack to Hijack Large Language Model Applications Patrick Levi Christoph P. Neumann AAML 72 11 0 03 Apr 2024
Towards Human-AI Deliberation: Design and Evaluation of LLM-Empowered Deliberative AI for AI-Assisted Decision-Making Shuai Ma Qiaoyi Chen Xinru Wang Chengbo Zheng Zhenhui Peng Ming Yin Xiaojuan Ma ELM 118 24 0 25 Mar 2024
MyVLM: Personalizing VLMs for User-Specific Queries Yuval Alaluf Elad Richardson Sergey Tulyakov Kfir Aberman Daniel Cohen-Or MLLM VLM 107 23 0 21 Mar 2024
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models Zehui Chen Kuikun Liu Qiuchen Wang Wenwei Zhang Jiangning Liu Dahua Lin Kai-xiang Chen Feng Zhao LLMAG ALM AIFin 131 35 0 19 Mar 2024
"It's Kind of Context Dependent": Understanding Blind and Low Vision People's Video Accessibility Preferences Across Viewing Scenarios Lucy Jiang Crescentia Jung Mahika Phutane Abigale Stangl Shiri Azenkot 100 13 0 16 Mar 2024
Specification Overfitting in Artificial Intelligence Benjamin Roth Pedro Henrique Luz de Araujo Yuxi Xia Saskia Kaltenbrunner Christoph Korab 233 1 0 13 Mar 2024
AutoEval Done Right: Using Synthetic Data for Model Evaluation Pierre Boyeau Anastasios Nikolas Angelopoulos N. Yosef Jitendra Malik Michael I. Jordan SyDa 104 22 0 09 Mar 2024
A Comprehensive Survey on Process-Oriented Automatic Text Summarization with Exploration of LLM-Based Methods Hanlei Jin Yang Zhang Dan Meng Jun Wang Jinghua Tan 249 96 0 05 Mar 2024
Re-Ex: Revising after Explanation Reduces the Factual Errors in LLM Responses Juyeon Kim Jeongeun Lee Yoonho Chang Chanyeol Choi Junseong Kim Jy-yong Sohn KELM LRM 156 2 0 27 Feb 2024
A Survey of Large Language Models in Cybersecurity Gabriel de Jesus Coelho da Silva Carlos Becker Westphall 67 6 0 26 Feb 2024
Visual Hallucinations of Multi-modal Large Language Models Wen Huang Hongbin Liu Minxin Guo Neil Zhenqiang Gong MLLM VLM 116 35 0 22 Feb 2024
Large Language Models Can Better Understand Knowledge Graphs Than We Thought Xinbang Dai Yuncheng Hua Tongtong Wu Yang Sheng Qiu Ji Guilin Qi 177 0 0 18 Feb 2024
Trading off Consistency and Dimensionality of Convex Surrogates for the Mode Enrique Nueve Bo Waggoner Dhamma Kimpara Jessie Finocchiaro 98 1 0 16 Feb 2024
TDAG: A Multi-Agent Framework based on Dynamic Task Decomposition and Agent Generation Yaoxiang Wang Zhiyong Wu Junfeng Yao Jinsong Su LLMAG 151 12 0 15 Feb 2024
Introspective Planning: Aligning Robots' Uncertainty with Inherent Task Ambiguity Kaiqu Liang Zixu Zhang J. F. Fisac LLMAG 155 8 0 09 Feb 2024
Large Language Models: A Survey Shervin Minaee Tomas Mikolov Narjes Nikzad M. Asgari-Chenaghlu R. Socher Xavier Amatriain Jianfeng Gao ALM LM&MA ELM 246 425 0 09 Feb 2024
Mathemyths: Leveraging Large Language Models to Teach Mathematical Language through Child-AI Co-Creative Storytelling Chao Zhang Xuechen Liu Katherine Ziska Soobin Jeon Chi-Lin Yu Ying Xu 91 47 0 02 Feb 2024
Redefining "Hallucination" in LLMs: Towards a psychology-informed framework for mitigating misinformation Elijah Berberette Jack Hutchins Amir Sadovnik 31 10 0 01 Feb 2024
CroissantLLM: A Truly Bilingual French-English Language Model Manuel Faysse Patrick Fernandes Nuno M. Guerreiro António Loison Duarte M. Alves ... François Yvon André F.T. Martins Gautier Viaud C´eline Hudelot Pierre Colombo 161 37 0 01 Feb 2024
When Large Language Models Meet Vector Databases: A Survey Zhi Jing Yongye Su Yikun Han Bo Yuan Haiyun Xu Chunjiang Liu Kehai Chen Min Zhang 138 38 0 30 Jan 2024
Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models Minbyul Jeong Jiwoong Sohn Mujeen Sung Jaewoo Kang 120 34 0 27 Jan 2024
Can LLMs Evaluate Complex Attribution in QA? Automatic Benchmarking using Knowledge Graphs Nan Hu Jiaoyan Chen Yike Wu Guilin Qi Hongru Wang Sheng Bi Yongrui Chen Tongtong Wu Jeff Z. Pan HILM 98 8 0 26 Jan 2024
Black-Box Access is Insufficient for Rigorous AI Audits Stephen Casper Carson Ezell Charlotte Siegmann Noam Kolt Taylor Lynn Curtis ... Michael Gerovitch David Bau Max Tegmark David M. Krueger Dylan Hadfield-Menell AAML 145 94 0 25 Jan 2024
Hallucination is Inevitable: An Innate Limitation of Large Language Models Ziwei Xu Sanjay Jain Mohan S. Kankanhalli HILM LRM 172 259 0 22 Jan 2024
Enhancing Recommendation Diversity by Re-ranking with Large Language Models Diego Carraro Derek Bridge LRM ALM 131 18 0 21 Jan 2024
Generative AI in EU Law: Liability, Privacy, Intellectual Property, and Cybersecurity Claudio Novelli F. Casolari Philipp Hacker Giorgio Spedicato Luciano Floridi AILaw SILM 101 46 0 14 Jan 2024
Cross-modal Retrieval for Knowledge-based Visual Question Answering Paul Lerner Olivier Ferret C. Guinaudeau 85 9 0 11 Jan 2024