SSR-Zero: Simple Self-Rewarding Reinforcement Learning for Machine Translation

SSR-Zero: Simple Self-Rewarding Reinforcement Learning for Machine Translation

22 May 2025

Papers citing "SSR-Zero: Simple Self-Rewarding Reinforcement Learning for Machine Translation"

16 / 16 papers shown

Title
Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data Wei Zou Sen Yang Yu Bao Shujian Huang Jiajun Chen Shanbo Cheng SyDa 91 1 0 20 Apr 2025
MT-R1-Zero: Advancing LLM-based Machine Translation via R1-Zero-like Reinforcement Learning Zhaopeng Feng Shaosheng Cao Jiahan Ren Jiayuan Su Ruizhe Chen Yan Zhang Zhe Xu Yao Hu Jian Wu Zuozhu Liu ALM LRM 104 12 0 14 Apr 2025
Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization Qingyang Zhang Haitao Wu Changqing Zhang Peilin Zhao Yatao Bian ReLM LRM 126 15 0 08 Apr 2025
Inference-Time Scaling for Generalist Reward Modeling Zijun Liu P. Wang Ran Xu Shirong Ma Chong Ruan Ziwei Sun Yang Liu Y. Wu OffRL LRM 137 40 0 03 Apr 2025
Process-based Self-Rewarding Language Models Shimao Zhang Xiao Liu Xin Zhang Junxiao Liu Zheheng Luo Shujian Huang Yeyun Gong ReLM SyDa LRM 109 10 0 05 Mar 2025
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs Kanishk Gandhi Ayush Chakravarthy Anikait Singh Nathan Lile Noah D. Goodman ReLM LRM 132 82 0 03 Mar 2025
R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning Minggui He Yilun Liu Shimin Tao Yuanchang Luo Hongyong Zeng ... Daimeng Wei Weibin Meng Hao Yang Boxing Chen Osamu Yoshie LRM 111 8 0 27 Feb 2025
Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study Menglong Cui Pengzhi Gao Wei Liu Jian Luan Bin Wang LRM 82 5 0 04 Feb 2025
Language Imbalance Driven Rewarding for Multilingual Self-improving Wen Yang Junhong Wu Chen Wang Chengqing Zong J.N. Zhang ALM LRM 152 7 0 11 Oct 2024
Tower: An Open Multilingual Large Language Model for Translation-Related Tasks Duarte M. Alves José P. Pombal Nuno M. Guerreiro Pedro H. Martins Joao Alves ... Patrick Fernandes Sweta Agrawal Pierre Colombo José G. C. de Souza André F.T. Martins LRM 93 151 0 27 Feb 2024
xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection Nuno M. Guerreiro Ricardo Rei Daan van Stigt Luísa Coheur Pierre Colombo André F.T. Martins 99 135 0 16 Oct 2023
Scaling up COMETKIWI: Unbabel-IST 2023 Submission for the Quality Estimation Shared Task Ricardo Rei Nuno M. Guerreiro José P. Pombal Daan van Stigt Marcos Vinícius Treviso Luísa Coheur José G. C. de Souza André F. T. Martins 71 61 0 21 Sep 2023
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model BigScience Workshop : Teven Le Scao Angela Fan Christopher Akiki ... Zhongli Xie Zifan Ye M. Bras Younes Belkada Thomas Wolf VLM 376 2,382 0 09 Nov 2022
No Language Left Behind: Scaling Human-Centered Machine Translation Nllb team Marta R. Costa-jussá James Cross Onur cCelebi Maha Elbayad ... Alexandre Mourachko C. Ropers Safiyyah Saleem Holger Schwenk Jeff Wang MoE 215 1,258 0 11 Jul 2022
Sequence Level Training with Recurrent Neural Networks MarcÁurelio Ranzato S. Chopra Michael Auli Wojciech Zaremba 100 1,614 0 20 Nov 2015
Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks Samy Bengio Oriol Vinyals Navdeep Jaitly Noam M. Shazeer 138 2,034 0 09 Jun 2015