Title
EvalAgent: Discovering Implicit Evaluation Criteria from the Web Manya Wadhwa Zayne Sprague Chaitanya Malaviya Philippe Laban Junyi Jessy Li Greg Durrett 138 1 0 21 Apr 2025
Synergistic Weak-Strong Collaboration by Aligning Preferences Yizhu Jiao Xuchao Zhang Zhaoyang Wang Yubo Ma Zhun Deng Rujia Wang Chetan Bansal Saravan Rajmohan Jiawei Han Huaxiu Yao 502 0 0 21 Apr 2025
Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators Yilun Zhou Austin Xu Peifeng Wang Caiming Xiong Shafiq Joty ELM ALM LRM 180 5 0 21 Apr 2025
A Self-Improving Coding Agent Maxime Robeyns Martin Szummer Laurence Aitchison LLMAG 150 1 0 21 Apr 2025
A Data-Centric Approach for Safe and Secure Large Language Models against Threatening and Toxic Content Chaima Njeh Haïfa Nakouri Fehmi Jaafar 61 0 0 19 Apr 2025
Do Prompt Patterns Affect Code Quality? A First Empirical Assessment of ChatGPT-Generated Code Antonio Della Porta Stefano Lambiase Fabio Palomba 59 0 0 18 Apr 2025
CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models Feiyang Li Peng Fang Zhan Shi Arijit Khan Fang Wang Dan Feng Weihao Wang Xin Zhang Yongjian Cui ReLM LRM 134 1 0 18 Apr 2025
From Misleading Queries to Accurate Answers: A Three-Stage Fine-Tuning Method for LLMs Guocong Li Weize Liu Yihang Wu Ping Wang Shuaihan Huang Hongxia Xu Jian Wu KELM HILM 117 0 0 15 Apr 2025
Offline Learning and Forgetting for Reasoning with Large Language Models Tianwei Ni Allen Nie Sapana Chaudhary Yao Liu Huzefa Rangwala Rasool Fakoor ReLM CLL LRM 476 1 0 15 Apr 2025
Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning Can Jin Hongwu Peng Qixin Zhang Yujin Tang Dimitris N. Metaxas Tong Che LLMAG LRM 441 9 0 14 Apr 2025
Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution Chenghao Li Chaoning Zhang Yi Lu Jing Zhang Qigan Sun X. Wang Jiwei Wei Guoqing Wang Yang Yang Jikang Cheng LRM 156 2 0 13 Apr 2025
Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models Yuxiang Lin Jingdong Sun Zhi-Qi Cheng Tianshuo Yuan Haomin Liang Zebang Cheng Yifei Dong Jun-Yan He Xiaojiang Peng Xian-Sheng Hua 169 0 0 10 Apr 2025
Synthesizing High-Quality Programming Tasks with LLM-based Expert and Student Agents Manh Hung Nguyen Victor-Alexandru Pădurean Alkis Gotovos Sebastian Tschiatschek Adish Singla 71 0 0 10 Apr 2025
Two Intermediate Translations Are Better Than One: Fine-tuning LLMs for Document-level Translation Refinement Yichen Dong Xinglin Lyu Junhui Li Daimeng Wei Min Zhang Shimin Tao Hao Yang 82 1 0 08 Apr 2025
Debate Only When Necessary: Adaptive Multiagent Collaboration for Efficient LLM Reasoning Sugyeong Eo Hyeonseok Moon Evelyn Hayoon Zi Chanjun Park Heuiseok Lim LLMAG 133 2 0 07 Apr 2025
Learning to Reason Over Time: Timeline Self-Reflection for Improved Temporal Reasoning in Language Models Adrián Bazaga Rexhina Blloshmi Bill Byrne Adria de Gispert ReLM LRM 106 1 0 07 Apr 2025
Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification Anqi Zhang Yulin Chen Jane Pan Chen Zhao Aurojit Panda Jinyang Li He He ReLM LRM 150 17 0 07 Apr 2025
CO-Bench: Benchmarking Language Model Agents in Algorithm Search for Combinatorial Optimization Weiwei Sun Shengyu Feng Shanda Li Yiming Yang LLMAG 99 5 0 06 Apr 2025
Cognitive Debiasing Large Language Models for Decision-Making Yougang Lyu Shijie Ren Yue Feng Zihan Wang Zhongfu Chen Zhaochun Ren Maarten de Rijke 281 0 0 05 Apr 2025
Stochastic Optimization with Optimal Importance Sampling Liviu Aolaritei Bart P. G. Van Parys Henry Lam Michael I. Jordan 151 2 0 04 Apr 2025
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows Souradip Chakraborty Mohammadreza Pourreza Ruoxi Sun Yiwen Song Nino Scherrer ... Furong Huang Amrit Singh Bedi Ahmad Beirami Hamid Palangi Tomas Pfister 138 2 0 02 Apr 2025
DebFlow: Automating Agent Creation via Agent Debate Jinwei Su Yinghui Xia Ronghua Shi Jianhui Wang Jianuo Huang Yansen Wang Tianyu Shi Yang Jingsong Lewei He 97 1 0 31 Mar 2025
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition Yong Liu Zonglin Yang Tong Xie Jinjie Ni Ben Gao Yuezun Li Shixiang Tang Wanli Ouyang Min Zhang Dongzhan Zhou 117 11 0 27 Mar 2025
From Annotation to Adaptation: Metrics, Synthetic Data, and Aspect Extraction for Aspect-Based Sentiment Analysis with Large Language Models Nikita Neveditsin Pawan Lingras V. Mago 126 0 0 26 Mar 2025
Reasoning Beyond Limits: Advances and Open Problems for LLMs M. Ferrag Norbert Tihanyi Merouane Debbah ELM OffRL LRM AI4CE 442 4 0 26 Mar 2025
RAIDER: Tool-Equipped Large Language Model Agent for Robotic Action Issue Detection, Explanation and Recovery Silvia Izquierdo-Badiola Carlos Rizzo Guillem Alenyà LLMAG LM&Ro 169 0 0 22 Mar 2025
FutureGen: LLM-RAG Approach to Generate the Future Work of Scientific Article Ibrahim Al Azher Miftahul Jannat Mokarrama Zhishuai Guo Sagnik Ray Choudhury Hamed Alhoori LLMAG 108 2 0 20 Mar 2025
LLM-FE: Automated Feature Engineering for Tabular Data with LLMs as Evolutionary Optimizers Nikhil Abhyankar Parshin Shojaee Chandan K. Reddy 115 0 0 18 Mar 2025
PLAY2PROMPT: Zero-shot Tool Instruction Optimization for LLM Agents via Tool Play Wei Fang Yang Zhang Kaizhi Qian James R. Glass Yada Zhu LLMAG 99 0 0 18 Mar 2025
Rolling Forward: Enhancing LightGCN with Causal Graph Convolution for Credit Bond Recommendation Ashraf Ghiye Baptiste Barreau Laurent Carlier Michalis Vazirgiannis 144 7 0 18 Mar 2025
MAP: Multi-user Personalization with Collaborative LLM-powered Agents Christine P. Lee Jihye Choi Bilge Mutlu LLMAG 182 1 1 17 Mar 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Yansen Wang Shengqiong Wu Yize Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 225 31 0 16 Mar 2025
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning Pengfei Luo Jingbo Zhou Tong Xu Yuan Xia Linli Xu Enhong Chen LRM 151 0 0 13 Mar 2025
"Well, Keep Thinking": Enhancing LLM Reasoning with Adaptive Injection Decoding Hyunbin Jin Je Won Yeom Seunghyun Bae Taesup Kim LRM ReLM 78 2 0 13 Mar 2025
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning Bo Liu Yunxiang Li Yangqiu Song Hanjing Wang Linyi Yang ... Jun Wang Jun Wang Weinan Zhang Shuyue Hu Ying Wen LLMAG KELM LRM AI4CE 139 11 0 12 Mar 2025
EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments Dongping Li Tielong Cai Tianci Tang Wenhao Chai Katherine Rose Driggs-Campbell Gaoang Wang LM&Ro 244 0 0 11 Mar 2025
EditLord: Learning Code Transformation Rules for Code Editing Weichen Li Albert Jan Baishakhi Ray Junfeng Yang Chengzhi Mao Kexin Pei KELM 73 2 0 10 Mar 2025
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning Xiangru Tang Daniel Shao Jiwoong Sohn Jiapeng Chen Jiayi Zhang ... Yilun Zhao Chenglin Wu Wenqi Shi Arman Cohan Mark B. Gerstein AI4MH LRM ELM LM&MA 137 10 0 10 Mar 2025
ReAgent: Reversible Multi-Agent Reasoning for Knowledge-Enhanced Multi-Hop QA Zhao Xinjie Fan Gao Rui Yang Yingjian Chen Yuyang Wang Ying Zhu Jiacheng Tang Irene Li Y. Matsuo Irene Li KELM LRM 114 1 0 10 Mar 2025
Combinatorial Optimization via LLM-driven Iterated Fine-tuning Pranjal Awasthi Sreenivas Gollapudi Ravi Kumar Kamesh Munagala 153 1 0 10 Mar 2025
System 0/1/2/3: Quad-process theory for multi-timescale embodied collective cognitive systems Tadahiro Taniguchi Yasushi Hirai Masahiro Suzuki Shingo Murata Takato Horii Kazutoshi Tanaka AI4CE 126 0 0 08 Mar 2025
Exploiting Edited Large Language Models as General Scientific Optimizers Qitan Lv T. Liu Haoyu Wang 196 1 0 08 Mar 2025
AutoIOT: LLM-Driven Automated Natural Language Programming for AIoT Applications Leming Shen Qiang Yang Yuanqing Zheng Mo Li 104 3 0 07 Mar 2025
LLMs Can Generate a Better Answer by Aggregating Their Own Responses Zichong Li Xinyu Feng Yuheng Cai Zixuan Zhang Tianyi Liu Chen Liang Weizhu Chen Haoyu Wang Tiejun Zhao LRM 125 2 0 06 Mar 2025
Efficient Algorithms for Verifying Kruskal Rank in Sparse Linear Regression and Related Applications Fengqin Zhou 123 6 0 06 Mar 2025
Unified Mind Model: Reimagining Autonomous Agents in the LLM Era Pengbo Hu Xiang Ying LLMAG LM&Ro AI4CE 168 1 0 05 Mar 2025
Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories Alperen Yildiz Sin G. Teo Yiling Lou Yebo Feng Chong Wang Dinil M. Divakaran 173 1 0 05 Mar 2025
Language Models can Self-Improve at State-Value Estimation for Better Search Ethan Mendes Alan Ritter LRM 103 3 0 04 Mar 2025
BRIDGE: Bootstrapping Text to Control Time-Series Generation via Multi-Agent Iterative Optimization and Diffusion Modeling Hao Li Yu Huang Chang Xu Viktor Schlegel Ren-He Jiang Riza Batista-Navarro Goran Nenadic Jiang Bian DiffM AI4CE 464 4 0 04 Mar 2025
Generator-Assistant Stepwise Rollback Framework for Large Language Model Agent Xingzuo Li Kehai Chen Yunfei Long X. Bai Yong-mei Xu Min Zhang LLMAG LRM 132 1 0 04 Mar 2025