Reflexion: Language Agents with Verbal Reinforcement Learning

20 March 2023

Karthik R. Narasimhan

Papers citing "Reflexion: Language Agents with Verbal Reinforcement Learning"

50 / 221 papers shown

Title
Can Global XAI Methods Reveal Injected Bias in LLMs? SHAP vs Rule Extraction vs RuleSHAP Francesco Sovrano 22 0 0 16 May 2025
Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models Annie Wong Thomas Bäck Aske Plaat Niki van Stein Anna V. Kononova ReLM ELM LRM 50 0 0 15 May 2025
Mining Hidden Thoughts from Texts: Evaluating Continual Pretraining with Synthetic Data for LLM Reasoning Yoichi Ishibashi Taro Yano Masafumi Oyamada SyDa LRM 44 0 0 15 May 2025
Focus, Merge, Rank: Improved Question Answering Based on Semi-structured Knowledge Bases Derian Boer Stephen Roth Stefan Kramer KELM 32 0 0 14 May 2025
Synthetic Code Surgery: Repairing Bugs and Vulnerabilities with LLMs and Synthetic Data David de-Fitero-Dominguez Antonio Garcia-Cabot Eva García-López SyDa 71 0 0 12 May 2025
Measuring General Intelligence with Generated Games Vivek Verma David Huang William Chen Dan Klein Nicholas Tomlin ReLM ELM LM&MA LRM 53 0 0 12 May 2025
Internet of Agents: Fundamentals, Applications, and Challenges Yuntao Wang Shaolong Guo Yanghe Pan Zhou Su Fahao Chen Tom H. Luan Peng Li Jiawen Kang Dusit Niyato LLMAG LM&Ro AI4CE 65 0 0 12 May 2025
Architectural Precedents for General Agents using Large Language Models R. Wray James R. Kirk John E. Laird LLMAG AI4TS AI4CE 31 0 0 11 May 2025
RefPentester: A Knowledge-Informed Self-Reflective Penetration Testing Framework Based on Large Language Models Hanzheng Dai Yuanliang Li Zhibo Zhang Jun Yan 26 0 0 11 May 2025
Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM Zehao Fan Garrett Gagnon Zhenyu Liu Liu Liu 29 0 0 09 May 2025
Camera Control at the Edge with Language Models for Scene Understanding Alexiy Buynitsky Sina Ehsani Bhanu Pallakonda Pragyana Mishra VLM 40 0 0 09 May 2025
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving Qi Liu Xinhao Zheng Renqiu Xia Xingzhi Qi Qinxiang Cao Junchi Yan AIMat 52 0 0 07 May 2025
Optimization Problem Solving Can Transition to Evolutionary Agentic Workflows Wenhao Li Bo Jin Mingyi Hong Changhong Lu Xiangfeng Wang 48 0 0 07 May 2025
Frog Soup: Zero-Shot, In-Context, and Sample-Efficient Frogger Agents Xiang Li Yiyang Hao Doug Fulop 22 0 0 06 May 2025
DYSTIL: Dynamic Strategy Induction with Large Language Models for Reinforcement Learning Borui Wang Kathleen McKeown Rex Ying OffRL 39 0 0 06 May 2025
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models Xiaobao Wu LRM 76 1 0 05 May 2025
Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks Vishnu Sarukkai Zhiqiang Xie Kayvon Fatahalian LLMAG 75 0 0 01 May 2025
Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning Lang Feng Weihao Tan Zhiyi Lyu Longtao Zheng Haiyang Xu Ming Yan Fei Huang Jingyi Wang 29 0 0 01 May 2025
Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models Bang Zhang Ruotian Ma Qingxuan Jiang Peisong Wang Jiaqi Chen ... Fanghua Ye Jian Li Yifan Yang Zhaopeng Tu Xiaolong Li LLMAG ELM ALM 111 0 1 01 May 2025
CoordField: Coordination Field for Agentic UAV Task Allocation In Low-altitude Urban Scenarios Tengchao Zhang Yonglin Tian Fei Lin Jun Huang Patrik P. Süli Rui Qin Fei-Yue Wang 73 0 0 30 Apr 2025
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems Shaokun Zhang Ming Yin Jieyu Zhang Jing Liu Zhiguang Han ... Beibin Li Chi Wang H. Wang Yuxiao Chen Qingyun Wu 49 1 0 30 Apr 2025
CrashFixer: A crash resolution agent for the Linux kernel Alex Mathai Chenxi Huang Suwei Ma Jihwan Kim Hailie Mitchell Aleksandr Nogikh Petros Maniatis Franjo Ivančić Junfeng Yang Baishakhi Ray 65 0 0 29 Apr 2025
Toward Efficient Exploration by Large Language Model Agents Dilip Arumugam Thomas L. Griffiths LLMAG 94 1 0 29 Apr 2025
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory Prateek Chhikara Dev Khant Saket Aryan Taranjeet Singh Deshraj Yadav LLMAG RALM 202 0 0 28 Apr 2025
Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review Toghrul Abbasli Kentaroh Toyoda Yuan Wang Leon Witt Muhammad Asif Ali Yukai Miao Dan Li Qingsong Wei UQCV 94 0 0 25 Apr 2025
AI Awareness Xianrui Li Haoyuan Shi Rongwu Xu Wei Xu 59 0 0 25 Apr 2025
Evolution of AI in Education: Agentic Workflows Firuz Kamalov David Santandreu Calonge Linda Smail Dilshod Azizov Dimple R. Thadani Theresa Kwong Amara Atif 50 1 0 25 Apr 2025
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning Zihan Wang Kaidi Wang Q. Wang Pingyue Zhang Linjie Li ... Jiajun Wu L. Fei-Fei Lijuan Wang Yejin Choi Manling Li 92 4 0 24 Apr 2025
Automatically Generating Rules of Malicious Software Packages via Large Language Model XiangRui Zhang HaoYu Chen YongZhong He Wenjia Niu Qiang Li 37 0 0 24 Apr 2025
Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning Josefa Lia Stoisser Marc Boubnovski Martell Julien Fauqueur LMTD ReLM AI4TS LRM 96 0 0 23 Apr 2025
WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model Tianqing Fang Huatian Zhang Zikai Zhang Kaixin Ma Wenhao Yu Haitao Mi Dong Yu LLMAG KELM 206 0 0 23 Apr 2025
Enhancing LLM-Based Agents via Global Planning and Hierarchical Execution Junjie Chen Yiming Li Jingli Yang Yong-Jin Liu Qingyao Ai LLMAG 87 0 0 23 Apr 2025
Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation Zhiyuan Hu Shiyun Xiong Yifan Zhang See-Kiong Ng Anh Tuan Luu Jingyi Wang Shuicheng Yan Bryan Hooi 48 0 0 22 Apr 2025
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning Le Zhuo Liangbing Zhao Sayak Paul Yue Liao Renrui Zhang Yi Xin Peng Gao Mohamed Elhoseiny Yiming Li VLM 75 0 0 22 Apr 2025
Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators Yilun Zhou Austin Xu Peifeng Wang Caiming Xiong Chenyu You ELM ALM LRM 56 2 0 21 Apr 2025
A Self-Improving Coding Agent Maxime Robeyns Martin Szummer Laurence Aitchison LLMAG 46 0 0 21 Apr 2025
Teaching Large Language Models to Reason through Learning and Forgetting Tianwei Ni Allen Nie Sapana Chaudhary Yao Liu Huzefa Rangwala Rasool Fakoor ReLM CLL LRM 186 0 0 15 Apr 2025
DocAgent: A Multi-Agent System for Automated Code Documentation Generation Dayu Yang Antoine Simoulin Xin Qian Xiaoyi Liu Yuwei Cao Zhaopu Teng Grey Yang LLMAG 59 0 0 11 Apr 2025
Large Language Models Could Be Rote Learners Yuyang Xu Renjun Hu Haochao Ying Junfei Wu Xing Shi Wei Lin ELM 178 0 0 11 Apr 2025
ELT-Bench: An End-to-End Benchmark for Evaluating AI Agents on ELT Pipelines Tengjun Jin Yuxuan Zhu Daniel Kang LMTD ELM 52 0 0 07 Apr 2025
CO-Bench: Benchmarking Language Model Agents in Algorithm Search for Combinatorial Optimization Weiwei Sun Shengyu Feng Shanda Li Yiming Yang LLMAG 45 1 0 06 Apr 2025
Building LLM Agents by Incorporating Insights from Computer Systems Yapeng Mi Zhi Gao Xiaojian Ma Qing Li LLMAG 44 0 0 06 Apr 2025
Cognitive Debiasing Large Language Models for Decision-Making Yougang Lyu Shijie Ren Yue Feng Zihan Wang Z. Chen Z. Z. Ren Maarten de Rijke 43 0 0 05 Apr 2025
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay Akshara Prabhakar Ziqiang Liu Weiran Yao Jianguo Zhang Ming Zhu ... Juan Carlos Niebles Shelby Heinecke Han Wang Shri Kiran Srinivasan Caiming Xiong VGen 90 2 0 04 Apr 2025
Affordable AI Assistants with Knowledge Graph of Thoughts Maciej Besta Lorenzo Paleari Jia Hao Andrea Jiang Robert Gerstenberger You Wu ... Jón Gunnar Hannesson Grzegorz Kwa'sniewski Marcin Copik H. Niewiadomski Torsten Hoefler LLMAG RALM 192 0 0 03 Apr 2025
An Illusion of Progress? Assessing the Current State of Web Agents Tianci Xue Weijian Qi Tianneng Shi Chan Hee Song Boyu Gou D. Song Huan Sun Yu Su LLMAG ELM Presented at ResearchTrend Connect \| LLMAG on 21 May 2025 108 4 1 02 Apr 2025
Visual Environment-Interactive Planning for Embodied Complex-Question Answering Ning Lan Baoshan Ou Xuemei Xie G. Shi LM&Ro 69 1 0 01 Apr 2025
RAIDER: Tool-Equipped Large Language Model Agent for Robotic Action Issue Detection, Explanation and Recovery Silvia Izquierdo-Badiola Carlos Rizzo Guillem Alenyà LLMAG LM&Ro 84 0 0 22 Mar 2025
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning Yong-Jin Liu Kevin Qinghong Lin C. Chen Mike Zheng Shou LM&Ro LRM 129 0 0 17 Mar 2025
Fine-Tuning Diffusion Generative Models via Rich Preference Optimization Hanyang Zhao Haoxian Chen Yucheng Guo Genta Indra Winata Tingting Ou Ziyu Huang D. Yao Wenpin Tang 59 0 0 13 Mar 2025