SeqPO-SiMT: Sequential Policy Optimization for Simultaneous Machine Translation

27 May 2025

Papers citing "SeqPO-SiMT: Sequential Policy Optimization for Simultaneous Machine Translation"

1 / 1 papers shown

Title
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 390 2,024 0 22 Jan 2025