360-LLaMA-Factory: Plug & Play Sequence Parallelism for Long Post-Training

28 May 2025

Papers citing "360-LLaMA-Factory: Plug & Play Sequence Parallelism for Long Post-Training"

4 / 4 papers shown

Title
SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning Yuze Zhao Jintao Huang Jinghan Hu Xingjun Wang Yunlin Mao ... Zhikai Wu Baole Ai Ang Wang Wenmeng Zhou Yingda Chen 55 36 0 10 Aug 2024
USP: A Unified Sequence Parallelism Approach for Long Context Generative AI Jiarui Fang Shangchun Zhao 40 17 0 13 May 2024
RoFormer: Enhanced Transformer with Rotary Position Embedding Jianlin Su Yu Lu Shengfeng Pan Ahmed Murtadha Bo Wen Yunfeng Liu 70 2,307 0 20 Apr 2021
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism Mohammad Shoeybi M. Patwary Raul Puri P. LeGresley Jared Casper Bryan Catanzaro MoE 268 1,861 0 17 Sep 2019