Semi-Supervised Reward Modeling via Iterative Self-Training

10 September 2024

Han Zhao

Papers citing "Semi-Supervised Reward Modeling via Iterative Self-Training"

2 / 2 papers shown

Title
Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion An Zhao Shengyuan Zhang Ling Yang Z. Li Jiale Wu Haoran Xu AnYang Wei Perry Pengyun GU Lingyun Sun 24 0 0 15 Apr 2025
Revisiting Self-Training for Neural Sequence Generation Junxian He Jiatao Gu Jiajun Shen MarcÁurelio Ranzato SSL LRM 244 269 0 30 Sep 2019