From Attention to Activation: Unravelling the Enigmas of Large Language Models

22 October 2024

Jiankang Deng

Papers citing "From Attention to Activation: Unravelling the Enigmas of Large Language Models"

2 / 2 papers shown

Title
Softpick: No Attention Sink, No Massive Activations with Rectified Softmax Zayd Muhammad Kawakibi Zuhri Erland Hilman Fuadi Alham Fikri Aji 33 0 0 29 Apr 2025
ControlMM: Controllable Masked Motion Generation Ekkasit Pinyoanuntapong Muhammad Usama Saleem Korrawe Karunratanakul Pu Wang Hongfei Xue Chong Chen Chuan Guo Junli Cao J. Ren Sergey Tulyakov VGen 37 4 0 14 Oct 2024