MuSR: Testing the Limits of Chain-of-thought with Multistep Soft
Reasoning

v1v2 (latest)

MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning

24 October 2023

Swarat Chaudhuri

ArXiv (abs)PDF HTML

Papers citing "MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning"

17 / 17 papers shown

Title
RECAST: Strengthening LLMs' Complex Instruction Following with Constraint-Verifiable Data Wenhao Liu Zhengkang Guo Mingchen Xie Jingwen Xu Zisu Huang ... Changze Lv He-Da Wang Hu Yao Xiaoqing Zheng Xuanjing Huang 166 0 0 25 May 2025
Semantic Retention and Extreme Compression in LLMs: Can We Have Both? Stanislas Laborde Martin Cousseau Antoun Yaacoub Lionel Prevost MQ 82 0 0 12 May 2025
Stability in Single-Peaked Strategic Resource Selection Games Henri Zeiler 118 2 0 09 May 2025
Improving Multilingual Capabilities with Cultural and Local Knowledge in Large Language Models While Enhancing Native Performance Ram Mohan Rao Kadiyala Siddartha Pullakhandam Siddhant Gupta Drishti Sharma Jebish Purbey Kanwal Mehreen Muhammad Arham Hamza Farooq 104 0 0 13 Apr 2025
FuseRL: Dense Preference Optimization for Heterogeneous Model Fusion Longguang Zhong Fanqi Wan Ziyi Yang Guosheng Liang Tianyuan Shi Xiaojun Quan MoMe 104 0 0 09 Apr 2025
SEA-LION: Southeast Asian Languages in One Network Raymond Ng Thanh Ngan Nguyen Yuli Huang Ngee Chia Tai Wai Yi Leong ... David Ong Tat-Wee B. Liu William-Chandra Tjhi Min Zhang Leslie Teo 107 14 0 08 Apr 2025
Debate Only When Necessary: Adaptive Multiagent Collaboration for Efficient LLM Reasoning Sugyeong Eo Hyeonseok Moon Evelyn Hayoon Zi Chanjun Park Heuiseok Lim LLMAG 109 2 0 07 Apr 2025
Universal Collection of Euclidean Invariants between Pairs of Position-Orientations Gijs Bellaard B. Smets R. Duits 114 0 0 04 Apr 2025
RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs Zhongzhan Huang Guoming Ling Vincent S. Liang Yupei Lin Yandong Chen Shanshan Zhong Hefeng Wu LRM 187 7 0 08 Mar 2025
SimPER: A Minimalist Approach to Preference Alignment without Hyperparameters Teng Xiao Yige Yuan Ziyang Chen Mingxiao Li Shangsong Liang Zhaochun Ren V. Honavar 219 11 0 21 Feb 2025
Multi-Step Reasoning in Korean and the Emergent Mirage Guijin Son Hyunwoo Ko Dasol Choi LRM ReLM 108 1 0 10 Jan 2025
Sloth: scaling laws for LLM skills to predict multi-benchmark performance across families Felipe Maia Polo Shivalika Singh Leshem Choshen Yuekai Sun Mikhail Yurochkin 167 8 0 09 Dec 2024
Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies Liwen Wang Sheng Chen Linnan Jiang Shu Pan Runze Cai Sen Yang Fei Yang 151 7 0 24 Oct 2024
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning Zayne Sprague Fangcong Yin Juan Diego Rodriguez Dongwei Jiang Manya Wadhwa Prasann Singhal Xinyu Zhao Xi Ye Kyle Mahowald Greg Durrett ReLM LRM 207 130 0 18 Sep 2024
StressPrompt: Does Stress Impact Large Language Models and Human Performance Similarly? Guobin Shen Dongcheng Zhao Aorigele Bao Xiang He Yiting Dong Yi Zeng 60 2 0 14 Sep 2024
Training on the Test Task Confounds Evaluation and Emergence Ricardo Dominguez-Olmedo Florian E. Dorner Moritz Hardt ELM 131 9 1 10 Jul 2024
CodeUpdateArena: Benchmarking Knowledge Editing on API Updates Zeyu Leo Liu Shrey Pandit Xi Ye Eunsol Choi Greg Durrett KELM ALM 112 7 0 08 Jul 2024