DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts
Language Model

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

7 May 2024

Bo Liu

Chenggang Zhao

Junjie Qiu

Mingchuan Zhang

Peiyi Wang

Runxin Xu

S. S. Li

X. Q. Li

Xin Liu

Xuecheng Su

Yanhong Xu

Yuheng Zou

Zehui Ren

Zhe Fu

Zhihong Shao

Papers citing "DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model"

8 / 108 papers shown

Title
Challenges in Deploying Long-Context Transformers: A Theoretical Peak Performance Analysis Yao Fu 35 19 0 14 May 2024
Simple and Scalable Strategies to Continually Pre-train Large Language Models Adam Ibrahim Benjamin Thérien Kshitij Gupta Mats L. Richter Quentin Anthony Timothée Lesort Eugene Belilovsky Irina Rish KELM CLL 44 54 0 13 Mar 2024
COMAE: COMprehensive Attribute Exploration for Zero-shot Hashing Yuqi Li Qingqing Long Yihang Zhou Ran Zhang Zhiyuan Ning Zhihong Zhu Yuanchun Zhou Xuezhi Wang Meng Xiao VLM 54 3 0 26 Feb 2024
Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models Keisuke Kamahori Tian Tang Yile Gu Kan Zhu Baris Kasikci 71 20 0 10 Feb 2024
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism DeepSeek-AI Xiao Bi : Xiao Bi Deli Chen Guanting Chen ... Yao Zhao Shangyan Zhou Shunfeng Zhou Qihao Zhu Yuheng Zou LRM ALM 139 309 0 05 Jan 2024
AlignBench: Benchmarking Chinese Alignment of Large Language Models Xiao Liu Xuanyu Lei Sheng-Ping Wang Yue Huang Zhuoer Feng ... Hongning Wang Jing Zhang Minlie Huang Yuxiao Dong Jie Tang ELM LM&MA ALM 125 43 0 30 Nov 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 363 12,003 0 04 Mar 2022
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 282 1,996 0 31 Dec 2020