BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition
Capabilities of Language Models in Multi-Agent Systems

BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems

28 August 2024

Boyan Wang

Jie Tang

Papers citing "BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems"

3 / 3 papers shown

Title
Why Do Multi-Agent LLM Systems Fail? Mert Cemri Melissa Z. Pan Shuyi Yang Lakshya A Agrawal Bhavya Chopra ... Dan Klein Kannan Ramchandran Matei A. Zaharia Joseph E. Gonzalez Ion Stoica LLMAG Presented at ResearchTrend Connect \| LLMAG on 23 Apr 2025 131 9 0 17 Mar 2025
Project Sid: Many-agent simulations toward AI civilization Altera. AL Andrew Ahn Nic Becker Stephanie Carroll Nico Christie ... Shuying Luo Peter Y Wang Mathew Willows Feitong Yang Guangyu Robert Yang LLMAG LM&Ro AI4CE 61 12 0 31 Oct 2024
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools Team GLM : Aohan Zeng Bin Xu Bowen Wang ... Zhaoyu Wang Zhen Yang Zhengxiao Du Zhenyu Hou Zihan Wang ALM 67 500 0 18 Jun 2024