Pierce the Mists, Greet the Sky: Decipher Knowledge Overshadowing via Knowledge Circuit Analysis

20 May 2025

Papers citing "Pierce the Mists, Greet the Sky: Decipher Knowledge Overshadowing via Knowledge Circuit Analysis"

28 / 28 papers shown

Title
RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video Shuhang Xun Sicheng Tao Jiajun Li Yibo Shi Zhixin Lin ... Shikang Wang Yang Liu Hao Zhang Ying Ma Xuming Hu VLM LRM 64 1 0 04 May 2025
A Survey of Large Language Model Agents for Question Answering Murong Yue LLMAG LM&MA ELM 92 4 0 24 Mar 2025
MathAgent: Leveraging a Mixture-of-Math-Agent Framework for Real-World Multimodal Mathematical Error Detection Yibo Yan Shen Wang Jiahao Huo Philip S. Yu Xuming Hu Qingsong Wen 289 7 0 23 Mar 2025
How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training Yixin Ou Yunzhi Yao N. Zhang Hui Jin Jiacheng Sun Shumin Deng Zechao Li Ningyu Zhang KELM CLL 84 2 0 16 Feb 2025
Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning Yibo Yan Shen Wang Jiahao Huo Jingheng Ye Zhendong Chu Xuming Hu Philip S. Yu Carla P. Gomes B. Selman Qingsong Wen LRM 186 17 0 05 Feb 2025
Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios Yunkai Dang Mengxi Gao Yibo Yan Xin Zou Yanggan Gu Aiwei Liu Xuming Hu 64 6 0 05 Nov 2024
Mitigating Modality Prior-Induced Hallucinations in Multimodal Large Language Models via Deciphering Attention Causality Guanyu Zhou Yibo Yan Xin Zou Kun Wang Aiwei Liu Xuming Hu 63 12 0 07 Oct 2024
Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents Pranav Putta Edmund Mills Naman Garg S. Motwani Chelsea Finn Divyansh Garg Rafael Rafailov LLMAG LRM 53 81 0 13 Aug 2024
InversionView: A General-Purpose Method for Reading Information from Neural Activations Xinting Huang Madhur Panwar Navin Goyal Michael Hahn 51 5 0 27 May 2024
The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey Tula Masterman Sandi Besen Mason Sawtell Alex Chao LM&Ro LLMAG 73 53 0 17 Apr 2024
Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models Tianyi Tang Wenyang Luo Haoyang Huang Dongdong Zhang Xiaolei Wang Xin Zhao Furu Wei Ji-Rong Wen 78 59 0 26 Feb 2024
Do Llamas Work in English? On the Latent Language of Multilingual Transformers Chris Wendler V. Veselovsky Giovanni Monea Robert West 96 125 0 16 Feb 2024
Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation Xiaoying Zhang Baolin Peng Ye Tian Jingyan Zhou Lifeng Jin Linfeng Song Haitao Mi Helen Meng HILM 67 51 0 14 Feb 2024
ReFT: Reasoning with Reinforced Fine-Tuning Trung Quoc Luong Xinbo Zhang Zhanming Jie Peng Sun Xiaoran Jin Hang Li OffRL LRM ReLM 58 114 0 17 Jan 2024
UrbanCLIP: Learning Text-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web Yibo Yan Haomin Wen Siru Zhong Wei Chen Haodong Chen Qingsong Wen Roger Zimmermann Yuxuan Liang 33 57 0 22 Oct 2023
Attribution Patching Outperforms Automated Circuit Discovery Aaquib Syed Can Rager Arthur Conmy 117 65 0 16 Oct 2023
LLM Lies: Hallucinations are not Bugs, but Features as Adversarial Examples Jia-Yu Yao Kun-Peng Ning Zhen-Hui Liu Munan Ning Li Yuan HILM LRM AAML 59 186 0 02 Oct 2023
A Survey of Hallucination in Large Foundation Models Vipula Rawte A. Sheth Amitava Das HILM LRM 163 375 0 12 Sep 2023
Explainability for Large Language Models: A Survey Haiyan Zhao Hanjie Chen Fan Yang Ninghao Liu Huiqi Deng Hengyi Cai Shuaiqiang Wang Dawei Yin Jundong Li LRM 69 447 0 02 Sep 2023
Using an LLM to Help With Code Understanding Daye Nam A. Macvean Vincent J. Hellendoorn Bogdan Vasilescu Brad A. Myers ELM 57 252 0 17 Jul 2023
A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of LLMs by Validating Low-Confidence Generation Neeraj Varshney Wenlin Yao Hongming Zhang Jianshu Chen Dong Yu HILM 85 169 0 08 Jul 2023
FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation Sewon Min Kalpesh Krishna Xinxi Lyu M. Lewis Wen-tau Yih Pang Wei Koh Mohit Iyyer Luke Zettlemoyer Hannaneh Hajishirzi HILM ALM 113 678 0 23 May 2023
Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning Lean Wang Lei Li Damai Dai Deli Chen Hao Zhou Fandong Meng Jie Zhou Xu Sun 118 189 0 23 May 2023
Towards Automated Circuit Discovery for Mechanistic Interpretability Arthur Conmy Augustine N. Mavor-Parker Aengus Lynch Stefan Heimersheim Adrià Garriga-Alonso 52 311 0 28 Apr 2023
Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small Kevin Wang Alexandre Variengien Arthur Conmy Buck Shlegeris Jacob Steinhardt 292 549 0 01 Nov 2022
Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them Mirac Suzgun Nathan Scales Nathanael Scharli Sebastian Gehrmann Yi Tay ... Aakanksha Chowdhery Quoc V. Le Ed H. Chi Denny Zhou Jason W. Wei ALM ELM LRM ReLM 241 1,091 0 17 Oct 2022
Language Models (Mostly) Know What They Know Saurav Kadavath Tom Conerly Amanda Askell T. Henighan Dawn Drain ... Nicholas Joseph Benjamin Mann Sam McCandlish C. Olah Jared Kaplan ELM 101 809 0 11 Jul 2022
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 697 41,736 0 28 May 2020