Title
QualityFlow: An Agentic Workflow for Program Synthesis Controlled by LLM Quality Checks Yaojie Hu Qiang Zhou Qihong Chen Xiaopeng Li Linbo Liu Dejiao Zhang Amit Kachroo Talha Oz Omer Tripp 181 7 0 20 Jan 2025
Aligning Instruction Tuning with Pre-training Yiming Liang Tianyu Zheng Xinrun Du Ge Zhang Qingbin Liu ... Zhaoxiang Zhang Wenhao Huang Jiajun Zhang Xiang Yue Jiajun Zhang 191 4 0 16 Jan 2025
LLMs as Workers in Human-Computational Algorithms? Replicating Crowdsourcing Pipelines with LLMs Tongshuang Wu Haiyi Zhu Maya Albayrak Alexis Axon Amanda Bertsch ... Ying-Jui Tseng Patricia Vaidos Zhijin Wu Wei Wu Chenyang Yang 182 34 0 10 Jan 2025
Understanding Before Reasoning: Enhancing Chain-of-Thought with Iterative Summarization Pre-Prompting Dong-Hai Zhu Yu-Jie Xiong Jia-Chen Zhang Xi-Jiong Xie Chun-Ming Xia ReLM LRM 67 0 0 08 Jan 2025
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement Tianyu Zheng Ge Zhang Tianhao Shen Xueling Liu Bill Yuchen Lin Jie Fu Wenhu Chen Xiang Yue SyDa 218 131 0 08 Jan 2025
Boosting of Thoughts: Trial-and-Error Problem Solving with Large Language Models Sijia Chen Baochun Li Di Niu LLMAG LRM AI4CE 128 14 0 08 Jan 2025
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning Beichen Zhang Yuhong Liu Xiaoyi Dong Yuhang Zang Pan Zhang Haodong Duan Yuhang Cao Dahua Lin Jinqiao Wang LRM ReLM 162 6 0 06 Jan 2025
Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection Yachao Zhao Bo Wang Yan Wang Dongming Zhao Ruifang He Yuexian Hou 157 4 0 04 Jan 2025
Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models Kaleem Ullah Qasim Jiashu Zhang Tariq Alsahfi Ateeq Ur Rehman Butt LRM ReLM 148 1 0 03 Jan 2025
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling Bradley Brown Jordan Juravsky Ryan Ehrlich Ronald Clark Quoc V. Le Christopher Ré Azalia Mirhoseini ALM LRM 323 331 0 03 Jan 2025
Mathematical Language Models: A Survey Wen Liu Hanglei Hu Jie Zhou Yuyang Ding Junsong Li ... Mengliang He Qin Chen Bo Jiang Aimin Zhou Liang He LRM 239 14 0 03 Jan 2025
A review of faithfulness metrics for hallucination assessment in Large Language Models Ben Malin Tatiana Kalganova Nikoloas Boulgouris HILM 140 2 0 03 Jan 2025
Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web Hiroki Furuta Yutaka Matsuo Aleksandra Faust Izzeddin Gur CLL 224 16 0 03 Jan 2025
LLM+AL: Bridging Large Language Models and Action Languages for Complex Reasoning about Actions Adam Ishay Joohyung Lee LRM 113 4 0 01 Jan 2025
Zero-Shot Strategies for Length-Controllable Summarization Fabian Retkowski A. Waibel 166 4 0 31 Dec 2024
Real-time Fake News from Adversarial Feedback Sanxing Chen Yukun Huang Bhuwan Dhingra 104 0 0 31 Dec 2024
In-Context Learning with Iterative Demonstration Selection Chengwei Qin Aston Zhang Chong Chen Anirudh Dagar Wenming Ye LRM 192 55 0 31 Dec 2024
A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine Hanguang Xiao Feizhong Zhou Xianglong Liu Tianqi Liu Zhipeng Li Xin Liu Xiaoxuan Huang AILaw LM&MA LRM 166 30 0 31 Dec 2024
LLM Reasoning Engine: Specialized Training for Enhanced Mathematical Reasoning Shuguang Chen Guang Lin LRM 486 1 0 28 Dec 2024
Visual Prompting with Iterative Refinement for Design Critique Generation Peitong Duan Chin-Yi Cheng Bjoern Hartmann Yang Li 174 0 0 22 Dec 2024
HybGRAG: Hybrid Retrieval-Augmented Generation on Textual and Relational Knowledge Bases Meng-Chieh Lee Qi Zhu Costas Mavromatis Zhen Han Soji Adeshina V. Ioannidis Huzefa Rangwala Christos Faloutsos RALM 150 4 0 20 Dec 2024
Seeking Consistent Flat Minima for Better Domain Generalization via Refining Loss Landscapes Aodi Li Liansheng Zhuang Xiao Long Minghong Yao Shafei Wang 526 1 0 18 Dec 2024
Exploring Multi-Modal Data with Tool-Augmented LLM Agents for Precise Causal Discovery ChengAo Shen Zhe Chen Dongsheng Luo Dongkuan Xu Haifeng Chen Jingchao Ni 159 5 0 18 Dec 2024
Prompt Categories Cluster for Weakly Supervised Semantic Segmentation Wangyu Wu Xianglin Qiu Siqi Song Xiaowei Huang Fei Ma Jimin Xiao VLM 206 6 0 18 Dec 2024
FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning Seunghee Kim Changhyeon Kim Taeuk Kim LRM 198 1 0 17 Dec 2024
Fool Me, Fool Me: User Attitudes Toward LLM Falsehoods Diana Bar-Or Nirman Ariel Weizman Amos Azaria HILM 118 1 0 16 Dec 2024
Codenames as a Benchmark for Large Language Models Matthew Stephenson Matthew Sidji Benoît Ronval LLMAG LRM ELM 243 1 0 16 Dec 2024
Time-Reversal Provides Unsupervised Feedback to LLMs Yerram Varun Rahul Madhavan Sravanti Addepalli A. Suggala Karthikeyan Shanmugam Prateek Jain LRM SyDa 126 0 0 03 Dec 2024
VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning Xueqing Wu Yuheng Ding Bingxuan Li Pan Lu Da Yin Kai-Wei Chang Nanyun Peng LRM 159 4 0 03 Dec 2024
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning Di Zhang Jingdi Lei Junxian Li Xunzhi Wang Yong Liu ... Steve Yang Jianbo Wu Peng Ye Wanli Ouyang Dongzhan Zhou OffRL LRM 203 8 0 27 Nov 2024
Inference Scaling fLaws: The Limits of LLM Resampling with Imperfect Verifiers Benedikt Stroebl Sayash Kapoor Arvind Narayanan LRM 154 18 0 26 Nov 2024
Self-Generated Critiques Boost Reward Modeling for Language Models Yue Yu Zhengxing Chen Aston Zhang L Tan Chenguang Zhu ... Suchin Gururangan Chao-Yue Zhang Melanie Kambadur Dhruv Mahajan Rui Hou LRM ALM 214 27 0 25 Nov 2024
Planning-Driven Programming: A Large Language Model Programming Workflow Chao Lei Yanchuan Chang Nir Lipovetzky Krista A. Ehinger 218 6 0 21 Nov 2024
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games Davide Paglieri Bartłomiej Cupiał Samuel Coward Ulyana Piterbarg Maciej Wolczyk ... Lerrel Pinto Rob Fergus Jakob Foerster Jack Parker-Holder Tim Rocktaschel LLMAG LRM 218 22 0 20 Nov 2024
PyGen: A Collaborative Human-AI Approach to Python Package Creation Saikat Barua Mostafizur Rahman Md Jafor Sadek Rafiul Islam Shehnaz Khaled Md. Shohrab Hossain 138 2 0 13 Nov 2024
Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset Khaoula Chehbouni Jonathan Colaço-Carr Yash More Jackie CK Cheung G. Farnadi 183 1 0 12 Nov 2024
CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent Cooperation Jie Liu Pan Zhou Yingjun Du Ah-Hwee Tan Cees G. M. Snoek Jan-Jakob Sonke E. Gavves LLMAG 110 3 0 07 Nov 2024
Grounding Natural Language to SQL Translation with Data-Based Self-Explanations Yuankai Fan Tonghui Ren Can Huang Zhenying He Xinyu Wang LRM 138 2 0 05 Nov 2024
A Deep Dive Into Large Language Model Code Generation Mistakes: What and Why? QiHong Chen Jiawei Li Jiecheng Deng Jiachen Yu Justin Tian Jin Chen Iftekhar Ahmed 162 1 0 03 Nov 2024
Plan-on-Graph: Self-Correcting Adaptive Planning of Large Language Model on Knowledge Graphs L. Chen Panrong Tong Zhongming Jin Ying Sun Jieping Ye Hui Xiong KELM RALM LRM 106 22 0 31 Oct 2024
Smaller Large Language Models Can Do Moral Self-Correction Guangliang Liu Zhiyu Xue Rongrong Wang K. Johnson Kristen Marie Johnson LRM 115 0 0 30 Oct 2024
SceneGenAgent: Precise Industrial Scene Generation with Coding Agent Xiao Xia Dan Zhang Zibo Liao Zhenyu Hou Tianrui Sun Jing Li Ling Fu Yuxiao Dong AI4CE LM&Ro 3DV LLMAG 89 2 0 29 Oct 2024
Improving Model Factuality with Fine-grained Critique-based Evaluator Yiqing Xie Wenxuan Zhou Pradyot Prakash Di Jin Yuning Mao ... Sinong Wang Han Fang Carolyn Rose Daniel Fried Hejia Zhang HILM 175 8 0 24 Oct 2024
LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems Nan Xu Xuezhe Ma LRM 168 5 0 18 Oct 2024
LoGU: Long-form Generation with Uncertainty Expressions Ruihan Yang Caiqi Zhang Zhisong Zhang Xinting Huang Sen Yang Nigel Collier Dong Yu Deqing Yang HILM 270 9 0 18 Oct 2024
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation Hyungjoo Chae Namyoung Kim Kai Tzu-iunn Ong Minju Gwak Gwanwoo Song Jihoon Kim Seon Gyeom Kim Dongha Lee Jinyoung Yeo LLMAG 107 23 0 17 Oct 2024
Retrospective Learning from Interactions Zizhao Chen Mustafa Omer Gul Yiwei Chen Gloria Geng Anne Wu Yoav Artzi LRM 112 1 0 17 Oct 2024
Decomposition Dilemmas: Does Claim Decomposition Boost or Burden Fact-Checking Performance? Qisheng Hu Quanyu Long Wenya Wang 423 9 0 17 Oct 2024
MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison Feedback Zonghai Yao Aditya Parashar Huixue Zhou Won Seok Jang Feiyun Ouyang Zhichao Yang Hong-ye Yu ELM 147 2 0 17 Oct 2024
Conformity in Large Language Models Xiaochen Zhu Caiqi Zhang Tom Stafford Nigel Collier Andreas Vlachos 131 0 0 16 Oct 2024