Evaluating Language Models

ELM

More data

The community introduces new metrics, methodologies, or frameworks for evaluating language models.

Neighbor communities

51015

Featured Papers

0 / 0 papers shown

All papers

50 / 5,267 papers shown

HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification Erik Y. Wang Sumeet Motwani James V. Roggeveen Eliot Hodges Dulhan Jayalath Charles London Kalyan Ramakrishnan Flaviu Cipcigan Philip Torr Alessandro Abate ALM ELM LRM 2 0 0 16 Mar 2026
The PokeAgent Challenge: Competitive and Long-Context Learning at Scale Seth Karten Jake Grigsby Tersoo Upaa Jr Junik Bae Seonghun Hong ... Kiran Vodrahalli Amy Zhang Fei Fang Yuke Zhu Chi Jin OffRL ELM LRM 1 0 0 16 Mar 2026
Estimating Absolute Web Crawl Coverage From Longitudinal Set Intersections Michael Paris Grigori Paris Fabian Baumann ELM 1 0 0 16 Mar 2026
TrinityGuard: A Unified Framework for Safeguarding Multi-Agent Systems Kai Wang Biaojie Zeng Zeming Wei Chang Jin Hefeng Zhou Xiangtian Li Chao Yang Jingjing Qu Xingcheng Xu Xia Hu LLMAG ELM 1 0 0 16 Mar 2026
HindSight: Evaluating Research Idea Generation via Future Impact Bo Jiang ELM LRM 0 0 0 16 Mar 2026
Establishing Construct Validity in LLM Capability Benchmarks Requires Nomological Networks Timo Freiesleben ELM 0 0 0 16 Mar 2026
Towards Next-Generation LLM Training: From the Data-Centric Perspective Hao Liang Zhengyang Zhao Zhaoyang Han Meiyi Qiang Xiaochen Ma ... Qifeng Cai Zhiyu Li Linpeng Tang Weinan E Wentao Zhang AIFin ALM SyDa ELM 0 0 0 16 Mar 2026
Scalable Text-Embedding-informed Cognitive Diagnosis of Large Language Models Jia Liu Zhiyu Xu Yuqi Gu ELM AI4MH 0 0 0 16 Mar 2026
$$PA^3$: $\textbf{P}$olicy-$\textbf{A}$ware $\textbf{A}$gent $\textbf{A}$lignment through Chain-of-Thought$ $PA^3$ : $\textbf{P}$ olicy- $\textbf{A}$ ware $\textbf{A}$ gent $\textbf{A}$ lignment through Chain-of-Thought Shubhashis Roy Dipta Daniel Bis Kun Zhou Lichao Wang Benjamin Z. Yao Chenlei Guo Ruhi Sarikaya RALM ELM LRM 1 0 0 15 Mar 2026
Open, to What End? A Capability-Theoretic Perspective on Open Search Nicola Neophytou Bhaskar Mitra ELM 0 0 0 15 Mar 2026
CausalEvolve: Towards Open-Ended Discovery with Causal Scratchpad Yongqiang Chen Chenxi Liu Zhenhao Chen Tongliang Liu Bo Han Kun Zhang ELM LRM 0 0 0 15 Mar 2026
A comprehensive multimodal dataset and benchmark for ulcerative colitis scoring in endoscopy Noha Ghatwary Jiangbei Yue Ahmed Elgendy Hanna Nagdy Ahmed Galal ... Hussein El-Amin Venkataraman Subramanian Noor Mohammed Gilberto Ochoa-Ruiz Sharib Ali ELM 0 0 0 15 Mar 2026
Questionnaire Responses Do not Capture the Safety of AI Agents Max Hellrigel-Holderbaum Edward James Young ELM 0 0 0 15 Mar 2026
ECG-Reasoning-Benchmark: A Benchmark for Evaluating Clinical Reasoning Capabilities in ECG Interpretation Jungwoo Oh Hyunseung Chung Junhee Lee Min-Gyu Kim Hangyul Yoon Ki Seong Lee Youngchae Lee Muhan Yeo Edward Choi ELM AI4MH LRM 0 0 0 15 Mar 2026
Clinician input steers frontier AI models toward both accurate and harmful decisions Ivan Lopez Selin S. Everett Bryan J. Bunning April S. Liang Dong Han Yao ... Stephen P. Ma Emily Alsentzer Jonathan H. Chen Akshay S. Chaudhari Eric Horvitz ELM AI4MH LM&MA LRM 0 0 0 14 Mar 2026
Faithful or Just Plausible? Evaluating the Faithfulness of Closed-Source LLMs in Medical Reasoning Halimat Afolabi Zainab Afolabi Elizabeth Friel Jude Roberts Antonio Ji-Xu ... Alisa Kennan Shreya Srivastava Anirudh Vairavan Laura Napitu Katie McClure ELM LRM 0 0 0 14 Mar 2026
$τ$ -Voice: Benchmarking Full-Duplex Voice Agents on Real-World Domains Soham Ray Keshav Dhandhania Victor Barres Karthik Narasimhan AuLLM ALM ELM 0 0 0 14 Mar 2026
EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings Shiva Krishna Reddy Malay Shravan Nayak Jishnu Sethumadhavan Nair Sagar Davasam Aman Tiwari Sathwik Tejaswi Madhusudhan Sridhar Krishna Nemala Srinivas Sunkara Sai Rajeswar ELM 0 0 0 13 Mar 2026
Developing the PsyCogMetrics AI Lab to Evaluate Large Language Models and Advance Cognitive Science -- A Three-Cycle Action Design Science Study Zhiye Jin Yibai Li K. D. Joshi Xuefei Deng Xiaobing ELM LRM 3 0 0 13 Mar 2026
Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation Wayner Barrios SouYoung Jin ReLM ELM LRM 3 0 0 13 Mar 2026
Retrieval-Enhanced Real Estate Appraisal Simon Popelier Matthieu X. B. Sarazin Maximilien Bohm Mathieu Gierski Hanna Mergui Matthieu Ospici Adrien Bernhardt ELM 1 0 0 13 Mar 2026
Delta1 with LLM: symbolic and neural integration for credible and explainable reasoning Yang Xu Jun Liu Shuwei Chen Chris Nugent Hailing Guo LRM ELM 4 0 0 13 Mar 2026
DS $^2$ -Instruct: Domain-Specific Data Synthesis for Large Language Models Instruction Tuning Ruiyao Xu Noelle I. Samia Han Liu ALM SyDa ELM 3 0 0 13 Mar 2026
CLARIN-PT-LDB: An Open LLM Leaderboard for Portuguese to assess Language, Culture and Civility João Silva Luís Gomes António Branco ELM ALM 1 0 0 13 Mar 2026
A Multi-task Large Reasoning Model for Molecular Science Pengfei Liu Shuang Ge Jun Tao Zhixiang Ren AI4CE LRM ELM 3 0 0 13 Mar 2026
SectEval: Evaluating the Latent Sectarian Preferences of Large Language Models Aditya Maheshwari Amit Gajkeshwar Kaushal Sharma Vivek Patel ELM 1 0 0 13 Mar 2026
The COTe score: A decomposable framework for evaluating Document Layout Analysis models Jonathan Bourne Mwiza Simbeye Ishtar Govia ELM 1 0 0 13 Mar 2026
CHIMERA-Bench: A Benchmark Dataset for Epitope-Specific Antibody Design Mansoor Ahmed Nadeem Taj Imdad Ullah Khan Hemanth Venkateswara Murray Patterson ELM 0 0 0 13 Mar 2026
Continual Learning in Large Language Models: Methods, Challenges, and Opportunities Hongyang Chen Zhongwu Sun Hongfei Ye Kunchi Li Xuemin Lin KELM CLL ELM LRM 4 0 0 13 Mar 2026
Uncovering Security Threats and Architecting Defenses in Autonomous Agents: A Case Study of OpenClaw Zonghao Ying Xiao Yang Siyang Wu Yumeng Song Yang Qu Hainan Li Tianlin Li Jiakai Wang Aishan Liu Xianglong Liu ELM 1 0 0 13 Mar 2026
LMEB: Long-horizon Memory Embedding Benchmark Xinping Zhao Xinshuo Hu Jiaxin Xu Danyu Tang Xin Zhang ... Yao Zhou Zifei Shan Meishan Zhang Baotian Hu Min Zhang RALM ELM 1 0 0 13 Mar 2026
LLM BiasScope: A Real-Time Bias Analysis Platform for Comparative LLM Evaluation Himel Ghosh Nick Elias Werner ELM 1 0 0 12 Mar 2026
When LLM Judge Scores Look Good but Best-of-N Decisions Fail Eddie Landesberg ELM LRM 3 0 0 12 Mar 2026
Generating Expressive and Customizable Evals for Timeseries Data Analysis Agents with AgentFuel Aadyaa Maddi Prakhar Naval Deepti Mande Shane Duan Muckai Girish Vyas Sekar ELM 1 0 0 12 Mar 2026
CSE-UOI at SemEval-2026 Task 6: A Two-Stage Heterogeneous Ensemble with Deliberative Complexity Gating for Political Evasion Detection Christos Tzouvaras Konstantinos Skianis Athanasios Voulodimos ELM 1 0 0 12 Mar 2026
Surg-R1: A Hierarchical Reasoning Foundation Model for Scalable and Interpretable Surgical Decision Support with Multi-Center Clinical Validation Jian Jiang Chenxi Lin Yiming Gu Zengyi Qin Zhitao Zeng ... Nicolas Padoy Hesheng Wang Qi Dou Yueming Jin Yutong Ban LRM ELM AI4CE 3 0 0 12 Mar 2026
Interpreting Negation in GPT-2: Layer- and Head-Level Causal AnalysisComputing and Communication Workshop and Conference (CC), 2026 Abdullah Al Mofael Lisa M. Kuhn Ghassan Alkadi Kuo-Pao Yang MILM ELM AI4CE 1 0 0 12 Mar 2026
Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge Junjie Wu Xuan Kan Zihao He Shunwen Tan Bo Pan Kaitai Zhang ELM 2 0 0 12 Mar 2026
Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training Yixin Liu Yue Yu DiJia Su Sid Wang Xuewei Wang Song Jiang Bo Liu Arman Cohan Yuandong Tian Zhengxing Chen ELM LRM 8 0 0 12 Mar 2026
CHiL(L)Grader: Calibrated Human-in-the-Loop Short-Answer Grading Pranav Raikote Korbinian Randl Ioanna Miliou Athanasios Lakes Panagiotis Papapetrou ALM ELM 7 0 0 12 Mar 2026
Legal-DC: Benchmarking Retrieval-Augmented Generation for Legal Documents Yaocong Li Qiang Lan Leihan Zhang Le Zhang AILaw 3DV ELM 12 0 0 12 Mar 2026
Scaling Laws for Educational AI Agents Mengsong Wu Hao Hao Shuzhen Bi Keqian Li Wentao Liu Siyu Song Hongbo Zhao Aimin Zhou LLMAG ELM 18 0 0 12 Mar 2026
LABSHIELD: A Multimodal Benchmark for Safety-Critical Reasoning and Planning in Scientific Laboratories Qianpu Sun Xiaowei Chi Yuhan Rui Ying Li Kuangzhi Ge Jiajun Li Sirui Han Shanghang Zhang ELM 5 0 0 12 Mar 2026
LLM-Assisted Causal Structure Disambiguation and Factor Extraction for Legal Judgment Prediction Yuzhi Liang Lixiang Ma Xinrong Zhu AILaw ELM 5 0 0 12 Mar 2026
COMPASS: The explainable agentic framework for Sovereignty, Sustainability, Compliance, and Ethics Jean-Sébastien Dessureault Alain-Thierry Iliho Manzi Soukaina Alaoui Ismaili Khadim Lo Mireille Lalancette Éric Bélanger ELM 1 0 0 11 Mar 2026
Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios Linus Folkerts Will Payne Simon Inman Philippos Giavridis Joe Skinner ... Mahmoud Ghanem John Wilkinson Alan Steer Vy Hong Jessica Wang ELM 2 0 0 11 Mar 2026
TOSSS: a CVE-based Software Security Benchmark for Large Language Models Marc Damie Murat Bilgehan Ertan Domenico Essoussi Angela Makhanu Gaëtan Peter Roos Wensveen ELM 5 0 0 11 Mar 2026
ThReadMed-QA: A Multi-Turn Medical Dialogue Benchmark from Real Patient Questions Monica Munnangi Saiph Savage LM&MA AI4MH ELM 17 0 0 11 Mar 2026
Emulating Clinician Cognition via Self-Evolving Deep Clinical Research Ruiyang Ren Yuhao Wang Yunsen Liang Lan Luo Jing Liu ... Cong Feng Yinan Zhang Chunyan Miao Ji-Rong Wen Wayne Xin Zhao ELM 5 0 0 11 Mar 2026
Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security? Chaoyuan Peng Lei Wu Yajin Zhou ELM 20 0 0 11 Mar 2026

Loading #Papers per Month with "ELM"

Past speakers

Name (-)

Top Contributors

Name (-)

Top Organizations at ResearchTrend.AI

Name (-)

Social Events

Date	Location	Event
No social events available