Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling

24 February 2025

Papers citing "Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling"

3 / 3 papers shown

Title
Self-Reasoning Language Models: Unfold Hidden Reasoning Chains with Few Reasoning Catalyst Hongru Wang Deng Cai Wanjun Zhong Shijue Huang Jeff Z. Pan Zeming Liu Kam-Fai Wong ReLM LRM 19 3 0 20 May 2025
Improving RL Exploration for LLM Reasoning through Retrospective Replay Shihan Dou Muling Wu Jingwen Xu Rui Zheng Tao Gui Qi Zhang Xuanjing Huang OffRL LRM 42 1 0 19 Apr 2025
GiFT: Gibbs Fine-Tuning for Code Generation Haochen Li Wanjin Feng Xin Zhou Zhiqi Shen SyDa 84 1 0 17 Feb 2025