Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis

3 October 2024

Hongkang Li

Meng Wang

Pin-Yu Chen

Papers citing "Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis"

3 / 3 papers shown

Title
How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias Ruiquan Huang Yingbin Liang Jing Yang 46 0 0 02 May 2025
When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers Hongkang Li Yihua Zhang Shuai Zhang Hao Wu Sijia Liu Pin-Yu Chen MoMe 69 3 0 15 Apr 2025
Enhancing Graph Transformers with Hierarchical Distance Structural Encoding Yuan Luo Hongkang Li Lei Shi Xiao-Ming Wu 28 7 0 22 Aug 2023