Title
Group-in-Group Policy Optimization for LLM Agent Training Lang Feng Zhenghai Xue Tingcong Liu Bo An OffRL 14 0 0 16 May 2025
WixQA: A Multi-Dataset Benchmark for Enterprise Retrieval-Augmented Generation Dvir Cohen Lin Burg Sviatoslav Pykhnivskyi Hagit Gur Stanislav Kovynov Olga Atzmon Gilad Barkan RALM 26 0 0 13 May 2025
OET: Optimization-based prompt injection Evaluation Toolkit Jinsheng Pan Xiaogeng Liu Chaowei Xiao AAML 71 0 0 01 May 2025
EnronQA: Towards Personalized RAG over Private Documents Michael J. Ryan Danmei Xu Chris Nivera Daniel Campos SILM 69 0 0 01 May 2025
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong Xuzhao Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Tianwei Zhang ALM ELM 91 2 0 26 Apr 2025
SMARTFinRAG: Interactive Modularized Financial RAG Benchmark Yiwei Zha 192 0 0 25 Apr 2025
Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning Josefa Lia Stoisser Marc Boubnovski Martell Julien Fauqueur LMTD ReLM AI4TS LRM 96 0 0 23 Apr 2025
FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation Chanyeol Choi Jihoon Kwon Jaeseon Ha Hojun Choi Chaewoon Kim Yongjae Lee Jy-yong Sohn Alejandro Lopez-Lira RALM 61 0 0 22 Apr 2025
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models Jie Zhu Qian Chen Huaixia Dou Junhui Li Lifan Guo Feng-Xiang Chen C. Zhang LRM 34 0 0 22 Apr 2025
FinNLI: Novel Dataset for Multi-Genre Financial Natural Language Inference Benchmarking Jabez Magomere Elena Kochkina Samuel Mensah Simerjot Kaur Charese Smiley 30 1 0 22 Apr 2025
CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models Dong Wang ELM 33 0 0 17 Apr 2025
Gauging Overprecision in LLMs: An Empirical Study Adil Bahaj Hamed Rahimi Mohamed Chetouani Mounir Ghogho 75 0 0 16 Apr 2025
FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding Zheng Liu Mengjie Liu Jianfei Chen Jingwei Xu Tengjiao Wang Conghui He Wentao Zhang MLLM 59 0 0 14 Apr 2025
SECQUE: A Benchmark for Evaluating Real-World Financial Analysis Capabilities Noga Ben Yoash Meni Brief O. Ovadia Gil Shenderovitz Moshik Mishaeli Rachel Lemberg Eitam Sheetrit ELM AIFin 28 0 0 06 Apr 2025
Collaborative LLM Numerical Reasoning with Local Data Protection Min Zhang Yuzhe Lu Yun Zhou Panpan Xu Lin Lee Cheong Chang-Tien Lu Haozhu Wang 55 0 0 01 Apr 2025
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning Yiwei Ma Guohai Xu Xiaoshuai Sun Jiayi Ji Jie Lou Debing Zhang Rongrong Ji 95 0 0 26 Mar 2025
SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding Mingze Xu Mingfei Gao Shiyu Li Jiasen Lu Zhe Gan Zhengfeng Lai Meng Cao Kai Kang Yuqing Yang Afshin Dehghan 59 2 0 24 Mar 2025
A Survey on Mathematical Reasoning and Optimization with Large Language Models Ali Forootani OffRL LRM AI4CE 45 0 0 22 Mar 2025
Extract, Match, and Score: An Evaluation Paradigm for Long Question-context-answer Triplets in Financial Analysis Bo Hu Han Yuan Vlad Pandelea Wuqiong Luo Yingzhu Zhao Zheng Ma 58 0 0 20 Mar 2025
Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning Zhaowei Liu X. Guo Fangqi Lou Lingfeng Zeng Jinyi Niu ... Sheng Xu Dezhi Chen Yun Chen Zuo Bai Liwen Zhang ReLM AIFin OffRL AI4TS LRM 56 5 0 20 Mar 2025
Optimizing Retrieval Strategies for Financial Question Answering Documents in Retrieval-Augmented Generation Systems Sejong Kim Hyunseo Song Hyunwoo Seo Hyunjun Kim RALM 79 0 0 19 Mar 2025
Synthetic Clarification and Correction Dialogues about Data-Centric Tasks -- A Teacher-Student Approach Christian Poelitz Nick McKenna 54 1 0 18 Mar 2025
Fragile Mastery: Are Domain-Specific Trade-Offs Undermining On-Device Language Models? Basab Jha Firoj Paudel 42 0 0 16 Mar 2025
General Table Question Answering via Answer-Formula Joint Generation Zhongyuan Wang Richong Zhang Zhijie Nie LMTD 185 0 0 16 Mar 2025
Bridging Language Models and Financial Analysis Alejandro Lopez-Lira Jihoon Kwon Sangwoon Yoon Jy-yong Sohn Chanyeol Choi AIFin 44 0 0 14 Mar 2025
FinTMMBench: Benchmarking Temporal-Aware Multi-Modal RAG in Finance Fengbin Zhu Junfeng Li Liangming Pan Luu Anh Tuan Fuli Feng Chao Wang Huanbo Luan Tat-Seng Chua AIFin 67 0 0 07 Mar 2025
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval Tingyu Song Guo Gan Mingsheng Shang Yilun Zhao VLM 70 0 0 06 Mar 2025
OkraLong: A Flexible Retrieval-Augmented Framework for Long-Text Query Processing Yulong Hui Yong Liu Yao Lu Huanchen Zhang RALM 133 0 0 04 Mar 2025
Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models Shuliang Liu Xinze Li Zhenghao Liu Yukun Yan Cheng Yang Zheni Zeng Zhiyuan Liu Maosong Sun Ge Yu RALM 110 1 0 26 Feb 2025
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding Max W.F. Ku Thomas Chong Jonathan Leung Krish Shah Alvin Yu Wenhu Chen LRM 102 3 0 26 Feb 2025
HiFi-KPI: A Dataset for Hierarchical KPI Extraction from Earnings Filings Rasmus Aavang Giovanni Rizzi Rasmus Bøggild Alexandre Iolov Mike Zhang Johannes Bjerva 62 0 0 21 Feb 2025
FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning Seunghee Kim Changhyeon Kim Taeuk Kim LRM 94 1 0 20 Feb 2025
FinMTEB: Finance Massive Text Embedding Benchmark Yixuan Tang Yi Yang AIFin 66 0 0 16 Feb 2025
Toward Copyright Integrity and Verifiability via Multi-Bit Watermarking for Intelligent Transportation Systems Yihao Wang Lingxiao Li Yifan Tang Ru Zhang Jianyi Liu 40 1 0 08 Feb 2025
FinBloom: Knowledge Grounding Large Language Model with Real-time Financial Data Ankur Sinha Chaitanya Agarwal P. Malo AIFin 47 0 0 04 Feb 2025
TableMaster: A Recipe to Advance Table Understanding with Language Models Lang Cao Hanbing Liu LMTD RALM 260 0 1 31 Jan 2025
RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems Robert Friel Masha Belyi Atindriyo Sanyal 82 19 0 17 Jan 2025
FinSphere: A Conversational Stock Analysis Agent Equipped with Quantitative Tools based on Real-Time Database Shijie Han Changhai Zhou Yiqing Shen Tianning Sun Yuhua Zhou Xiaoxia Wang Zhixiao Yang Jingshu Zhang Hongguang Li AIFin 37 1 0 08 Jan 2025
Mathematical Language Models: A Survey Wei Liu Hanglei Hu Jie Zhou Yuyang Ding Junsong Li ... Mengliang He Qin Chen Bo Jiang Aimin Zhou Liang He LRM 79 12 0 03 Jan 2025
SCITAT: A Question Answering Benchmark for Scientific Tables and Text Covering Diverse Reasoning Types Xuanliang Zhang Dingzirui Wang Baoxin Wang Longxu Dou Xinyuan Lu Keyan Xu Dayong Wu Qingfu Zhu Wanxiang Che LMTD 239 1 0 16 Dec 2024
SusGen-GPT: A Data-Centric LLM for Financial NLP and Sustainability Report Generation Qilong Wu Xiaoneng Xiang Hejia Huang Xuan Wang Yeo Wei Jie Ranjan Satapathy Ricardo Shirota Filho Bharadwaj Veeravalli 92 1 0 14 Dec 2024
GraphOTTER: Evolving LLM-based Graph Reasoning for Complex Table Question Answering Qianlong Li Chen Huang Shuai Li Yuanxin Xiang Deng Xiong Wenqiang Lei LMTD 78 1 0 02 Dec 2024
TQA-Bench: Evaluating LLMs for Multi-Table Question Answering with Scalable Context and Symbolic Extension Zipeng Qiu You Peng Guangxin He Binhang Yuan Chen Wang LMTD 106 2 0 29 Nov 2024
Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models Xiaojun Wu Junxi Liu Huanyi Su Zhouchi Lin Yiyan Qi ... Fuwei Wang Saizhuo Wang Fengrui Hua Jia Li Jian Guo 52 0 0 09 Nov 2024
M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework Yew Ken Chia Liying Cheng Hou Pong Chan Chaoqun Liu Maojia Song Sharifah Mahani Aljunied Soujanya Poria Lidong Bing RALM VLM 48 4 0 09 Nov 2024
FinDVer: Explainable Claim Verification over Long and Hybrid-Content Financial Documents Yilun Zhao Yitao Long Yuru Jiang Chengye Wang Weiyuan Chen Hongjun Liu Yiming Zhang Xiangru Tang Chen Zhao Arman Cohan VLM 35 1 0 08 Nov 2024
Number Cookbook: Number Understanding of Language Models and How to Improve It Haotong Yang Yi Hu Shijia Kang Zhouchen Lin Muhan Zhang LRM 46 2 0 06 Nov 2024
Enhancing Financial Question Answering with a Multi-Agent Reflection Framework Sorouralsadat Fatemi Yuheng Hu AIFin 27 3 0 29 Oct 2024
Opportunities and Challenges of Generative-AI in Finance Akshar Prabhu Desai Ganesh Satish Mallya Mohammad Luqman Tejasvi Ravi Nithya Kota Pranjul Yadav AIFin 45 2 0 21 Oct 2024
CAP: Data Contamination Detection via Consistency Amplification Yi Zhao Jing Li Linyi Yang 34 1 0 19 Oct 2024