Title
Enhancing Visual Grounding for GUI Agents via Self-Evolutionary Reinforcement Learning Xinbin Yuan Jian Zhang K. Li Zhuoxuan Cai Lujian Yao ... Enguang Wang Qibin Hou Jinwei Chen Peng-Tao Jiang Bo Li 49 1 0 18 May 2025
UIShift: Enhancing VLM-based GUI Agents through Self-supervised Reinforcement Learning Longxi Gao Li Zhang Mengwei Xu 29 1 0 18 May 2025
Can Global XAI Methods Reveal Injected Bias in LLMs? SHAP vs Rule Extraction vs RuleSHAP Francesco Sovrano 68 0 0 16 May 2025
Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains Ibne Farabi Shihab Sanjeda Akter Anuj Sharma BDL 36 1 0 12 May 2025
Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI Benjamin Raphael Ernhofer Daniil Prokhorov Jannica Langner Dominik Bollmann 47 1 0 09 May 2025
Divide, Optimize, Merge: Fine-Grained LLM Agent Optimization at Scale Jiale Liu Yifan Zeng Shaokun Zhang Chi Zhang Malte Højmark-Bertelsen Marie Normann Gadeberg Hongru Wang Qingyun Wu 62 1 0 06 May 2025
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners Yuhang Liu Pengxiang Li C. Xie Xavier Hu Xiaotian Han Shengyu Zhang Hongxia Yang Fei Wu LLMAG LM&Ro LRM AI4CE 81 8 0 19 Apr 2025
TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials Bofei Zhang Zirui Shang Zhi Gao Wang Zhang Rui Xie Xiaojian Ma Tao Yuan Xinxiao Wu Song-Chun Zhu Qing Li LLMAG 62 3 0 17 Apr 2025
ToolRL: Reward is All Tool Learning Needs Cheng Qian Emre Can Acikgoz Qi He Hongru Wang Xiusi Chen Dilek Hakkani-Tur Gokhan Tur Heng Ji OffRL LRM 60 16 0 16 Apr 2025
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs Jiazhan Feng Shijue Huang Xingwei Qu Ge Zhang Yujia Qin Baoquan Zhong Chengquan Jiang Jinxin Chi Wanjun Zhong OffRL ReLM SyDa KELM LRM 91 19 0 15 Apr 2025
UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis Xinyi Liu Xiaoyi Zhang Ziyun Zhang Yan Lu 60 2 0 15 Apr 2025
GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents Run Luo Lu Wang Wanwei He Xiaobo Xia LLMAG 75 28 0 14 Apr 2025
Hierarchical Planning for Complex Tasks with Knowledge Graph-RAG and Symbolic Verification Cristina Cornelio Flavio Petruzzellis Pietro Lio 48 1 0 06 Apr 2025
Stochastic Optimization with Optimal Importance Sampling Liviu Aolaritei Bart P. G. Van Parys Henry Lam Michael I. Jordan 72 0 0 04 Apr 2025
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding Wasi Uddin Ahmad Mehrzad Samadi Somshubra Majumdar Aleksander Ficek Siddhartha Jain Jocelyn Huang Vahid Noroozi Boris Ginsburg LRM 73 8 0 02 Apr 2025
LLMs as Planning Modelers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models Marcus Tantakoun Xiaodan Zhu Christian Muise 56 4 0 22 Mar 2025
LLM+MAP: Bimanual Robot Task Planning using Large Language Models and Planning Domain Definition Language Kun-Mo Chu Xufeng Zhao C. Weber Stefan Wermter LLMAG LM&Ro 68 2 0 21 Mar 2025
SpiritSight Agent: Advanced GUI Agent with One Look Zhiyuan Huang Ziming Cheng Junting Pan Zhaohui Hou Mingjie Zhan LLMAG 105 3 0 05 Mar 2025
ATLaS: Agent Tuning via Learning Critical Steps Zhixun Chen Ming Li Yuanmin Huang Yali Du Meng Fang Dinesh Manocha 118 4 0 04 Mar 2025
Flow-of-Options: Diversified and Improved LLM Reasoning by Thinking Through Options Lakshmi Nair Ian Trase Mark Kim AIFin LRM AI4CE 69 2 0 18 Feb 2025
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks Frank F. Xu Yufan Song Boxuan Li Yuxuan Tang Kritanjali Jain ... Wayne Chi Lawrence Jang Yiqing Xie Shuyan Zhou Graham Neubig LLMAG 152 29 0 18 Dec 2024
Can LLMs plan paths with extra hints from solvers? Erik Wu Sayan Mitra LRM 41 3 0 07 Oct 2024
Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents Boyu Gou Ruohan Wang Boyuan Zheng Yanan Xie Cheng Chang Yiheng Shu Huan Sun Yu Su LM&Ro LLMAG 86 72 0 07 Oct 2024
Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks Xingxuan Li Weiwen Xu Ruochen Zhao Fangkai Jiao Shafiq Joty Lidong Bing LRM 69 10 0 02 Oct 2024
Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling Jinghan Li Zhicheng Sun Fei Li 120 2 0 02 Oct 2024
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning Zayne Sprague Fangcong Yin Juan Diego Rodriguez Dongwei Jiang Manya Wadhwa Prasann Singhal Xinyu Zhao Xi Ye Kyle Mahowald Greg Durrett ReLM LRM 147 101 0 18 Sep 2024
Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale Rogerio Bonatti Dan Zhao Francesco Bonacci Dillon Dupont Sara Abdali ... Justin Wagle K. Koishida A. Bucker Lawrence Jang Zack Hui LLMAG 56 35 0 12 Sep 2024
VerilogCoder: Autonomous Verilog Coding Agents with Graph-based Planning and Abstract Syntax Tree (AST)-based Waveform Tracing Tool Chia-Tung Ho Haoxing Ren Brucek Khailany 61 19 0 15 Aug 2024
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents Xiao-Yang Liu Tianjie Zhang Yu Gu Iat Long Iong Yifan Xu ... Zhengxiao Du Chan Hee Song Yu Su Yuxiao Dong Jie Tang VLM LLMAG 66 30 0 12 Aug 2024
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities Jiarui Lu Thomas Holleis Yizhe Zhang Bernhard Aumayer Feng Nan ... Shen Ma Mengyu Li Guoli Yin Zirui Wang Ruoming Pang LLMAG ELM 58 32 0 08 Aug 2024
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents H. Trivedi Tushar Khot Mareike Hartmann R. Manku Vinty Dong Edward Li Shashank Gupta Ashish Sabharwal Niranjan Balasubramanian VGen LLMAG 37 30 0 26 Jul 2024
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs Xin Lai Zhuotao Tian Yukang Chen Senqiao Yang Xiangru Peng Jiaya Jia LRM 85 104 0 26 Jun 2024
Retrieve-Plan-Generation: An Iterative Planning and Answering Framework for Knowledge-Intensive LLM Generation Yuanjie Lyu Zihan Niu Zheyong Xie Chao Zhang Tong Xu Yang Wang Enhong Chen RALM 41 10 0 21 Jun 2024
LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning Silin Meng Yiwei Wang Cheng-Fu Yang Nanyun Peng Kai-Wei Chang 64 26 0 20 Jun 2024
Open Grounded Planning: Challenges and Benchmark Construction Shiguang Guo Ziliang Deng Hongyu Lin Yaojie Lu Xianpei Han Le Sun LRM LM&Ro LLMAG 46 2 0 05 Jun 2024
AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents Christopher Rawles Sarah Clinckemaillie Yifan Chang Jonathan Waltz Gabrielle Lau ... Daniel Toyama Robert Berry Divya Tyamagundlu Timothy Lillicrap Oriana Riva LLMAG 78 53 0 23 May 2024
Chain of Thoughtlessness? An Analysis of CoT in Planning Kaya Stechly Karthik Valmeekam Subbarao Kambhampati LRM LM&Ro 91 47 0 08 May 2024
Small Language Models Need Strong Verifiers to Self-Correct Reasoning Yunxiang Zhang Muhammad Khalifa Lajanugen Logeswaran Jaekyeom Kim Moontae Lee Honglak Lee Lu Wang LRM KELM ReLM 51 37 0 26 Apr 2024
Advancing LLM Reasoning Generalists with Preference Trees Lifan Yuan Ganqu Cui Hanbin Wang Ning Ding Xingyao Wang ... Zhenghao Liu Bowen Zhou Hao Peng Zhiyuan Liu Maosong Sun LRM 71 109 0 02 Apr 2024
KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents Yuqi Zhu Shuofei Qiao Yixin Ou Shumin Deng N. Zhang Shiwei Lyu Yue Shen Lei Liang Jinjie Gu Ningyu Zhang LLMAG LM&Ro 83 30 0 05 Mar 2024
ProTrix: Building Models for Planning and Reasoning over Tables with Sentence Context Zirui Wu Yansong Feng LMTD ReLM LRM 75 11 0 04 Mar 2024
Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement Learning Michael T. Matthews Michael Beukman Benjamin Ellis Mikayel Samvelyan Matthew Jackson Samuel Coward Jakob Foerster OffRL 44 29 0 26 Feb 2024
Do Large Language Models Latently Perform Multi-Hop Reasoning? Sohee Yang E. Gribovskaya Nora Kassner Mor Geva Sebastian Riedel ReLM LRM 66 96 0 26 Feb 2024
TravelPlanner: A Benchmark for Real-World Planning with Language Agents Jian Xie Kai Zhang Jiangjie Chen Tinghui Zhu Renze Lou Yuandong Tian Yanghua Xiao Yu-Chuan Su LLMAG LM&Ro 69 156 0 02 Feb 2024
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing Fangkai Jiao Chengwei Qin Zhengyuan Liu Nancy F. Chen Shafiq Joty LRM 37 32 0 01 Feb 2024
TaskBench: Benchmarking Large Language Models for Task Automation Yongliang Shen Kaitao Song Xu Tan Wenqi Zhang Kan Ren Siyu Yuan Weiming Lu Dongsheng Li Yueting Zhuang 55 60 0 30 Nov 2023
AgentTuning: Enabling Generalized Agent Abilities for LLMs Aohan Zeng Mingdao Liu Rui Lu Bowen Wang Xiao Liu Yuxiao Dong Jie Tang LM&MA ALM LLMAG 40 169 0 19 Oct 2023
MemGPT: Towards LLMs as Operating Systems Charles Packer Sarah Wooders Kevin Lin Vivian Fang Shishir G. Patil Ion Stoica Joseph E. Gonzalez RALM 49 131 0 12 Oct 2023
The Rise and Potential of Large Language Model Based Agents: A Survey Zhiheng Xi Wenxiang Chen Xin Guo Wei He Yiwen Ding ... Wenjuan Qin Yongyan Zheng Xipeng Qiu Xuanjing Huan Tao Gui LM&MA LM&Ro 3DV AI4CE 21 885 0 14 Sep 2023
Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop Visual Reasoning Pengbo Hu Jingxian Qi Xingyu Li Hong Li Xinqi Wang Bing Quan Ruiyu Wang Yi Zhou LRM LLMAG 45 16 0 18 Aug 2023