Theoretical limitations of multi-layer Transformer

4 December 2024

Papers citing "Theoretical limitations of multi-layer Transformer"

8 / 8 papers shown

Title
Pause Tokens Strictly Increase the Expressivity of Constant-Depth Transformers Charles London Varun Kanade 5 0 0 27 May 2025
Chain-of-Thought Tokens are Computer Program Variables Fangwei Zhu Peiyi Wang Zhifang Sui LRM 72 0 0 08 May 2025
(Im)possibility of Automated Hallucination Detection in Large Language Models Amin Karbasi Omar Montasser John Sous Grigoris Velegkas HILM 65 0 0 23 Apr 2025
Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent Bo Chen Zhenmei Shi Zhao Song Jiahao Zhang NAI LRM AI4CE 55 2 0 07 Apr 2025
Concise One-Layer Transformers Can Do Function Evaluation (Sometimes) Lena Strobl Dana Angluin Robert Frank 48 0 0 28 Mar 2025
When More is Less: Understanding Chain-of-Thought Length in LLMs Yuyang Wu Yifei Wang Tianqi Du Stefanie Jegelka Yisen Wang Yisen Wang LRM 69 31 0 11 Feb 2025
Lower Bounds for Chain-of-Thought Reasoning in Hard-Attention Transformers Alireza Amiri Xinting Huang Mark Rofin Michael Hahn LRM 355 0 0 04 Feb 2025
Lower bounds on transformers with infinite precision Alexander Kozachinskiy 44 2 0 31 Dec 2024