Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering

17 February 2024

Vivek Gupta

Dan Roth

Papers citing "Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering"

21 / 21 papers shown

Title
PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization Yang Jiao Xiao Wang Kai Yang AAML SILM 88 0 0 10 Apr 2025
MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning Xiang Yue Xingwei Qu Ge Zhang Yao Fu Wenhao Huang Huan Sun Yu-Chuan Su Wenhu Chen AIMat LRM 133 399 0 11 Sep 2023
Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning Yunhu Ye Binyuan Hui Min Yang Binhua Li Fei Huang Yongbin Li LMTD ReLM LRM 101 159 0 31 Jan 2023
Successive Prompting for Decomposing Complex Questions Dheeru Dua Shivanshu Gupta Sameer Singh Matt Gardner ReLM LRM 76 115 0 08 Dec 2022
Decomposed Prompting: A Modular Approach for Solving Complex Tasks Tushar Khot H. Trivedi Matthew Finlayson Yao Fu Kyle Richardson Peter Clark Ashish Sabharwal ReLM LRM 104 443 0 05 Oct 2022
Complexity-Based Prompting for Multi-Step Reasoning Yao Fu Hao-Chun Peng Ashish Sabharwal Peter Clark Tushar Khot ReLM LRM 212 435 0 03 Oct 2022
Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning Pan Lu Liang Qiu Kai-Wei Chang Ying Nian Wu Song-Chun Zhu Tanmay Rajpurohit Peter Clark Ashwin Kalyan ReLM LRM 147 290 0 29 Sep 2022
Solving Quantitative Reasoning Problems with Language Models Aitor Lewkowycz Anders Andreassen David Dohan Ethan Dyer Henryk Michalewski ... Theo Gutman-Solo Yuhuai Wu Behnam Neyshabur Guy Gur-Ari Vedant Misra ReLM ELM LRM 172 833 0 29 Jun 2022
Learning Math Reasoning from Self-Sampled Correct and Partially-Correct Solutions Ansong Ni J. Inala Chenglong Wang Oleksandr Polozov Christopher Meek Dragomir R. Radev Jianfeng Gao ReLM AIMat LRM 75 44 0 28 May 2022
Learning To Retrieve Prompts for In-Context Learning Ohad Rubin Jonathan Herzig Jonathan Berant VPVLM RALM 81 702 0 16 Dec 2021
Training Verifiers to Solve Math Word Problems K. Cobbe V. Kosaraju Mohammad Bavarian Mark Chen Heewoo Jun ... Jerry Tworek Jacob Hilton Reiichiro Nakano Christopher Hesse John Schulman ReLM OffRL LRM 277 4,397 0 27 Oct 2021
TAPEX: Table Pre-training via Learning a Neural SQL Executor Qian Liu Bei Chen Jiaqi Guo Morteza Ziyadi Zeqi Lin Weizhu Chen Jian-Guang Lou LMTD 68 268 0 16 Jul 2021
TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance Fengbin Zhu Wenqiang Lei Youcheng Huang Chao Wang Shuo Zhang Jiancheng Lv Fuli Feng Tat-Seng Chua AIMat 104 293 0 17 May 2021
Open Question Answering over Tables and Text Wenhu Chen Ming-Wei Chang Eva Schlinger Wenjie Wang William W. Cohen LMTD RALM 75 200 0 20 Oct 2020
INFOTABS: Inference on Tables as Semi-structured Data Vivek Gupta Maitrey Mehta Pegah Nokhiz Vivek Srikumar LMTD 50 109 0 13 May 2020
HybridQA: A Dataset of Multi-Hop Question Answering over Tabular and Textual Data Wenhu Chen Hanwen Zha Zhiyu Zoey Chen Wenhan Xiong Hong Wang Wenjie Wang 64 302 0 15 Apr 2020
TAPAS: Weakly Supervised Table Parsing via Pre-training Jonathan Herzig Pawel Krzysztof Nowak Thomas Müller Francesco Piccinno Julian Martin Eisenschlos LMTD RALM 96 651 0 05 Apr 2020
REALM: Retrieval-Augmented Language Model Pre-Training Kelvin Guu Kenton Lee Zora Tung Panupong Pasupat Ming-Wei Chang RALM 122 2,095 0 10 Feb 2020
TabFact: A Large-scale Dataset for Table-based Fact Verification Wenhu Chen Hongmin Wang Jianshu Chen Yunkai Zhang Hong Wang Shiyang Li Xiyou Zhou William Yang Wang LMTD 97 506 0 05 Sep 2019
From 'F' to Á' on the N.Y. Regents Science Exams: An Overview of the Aristo Project Peter Clark Oren Etzioni Daniel Khashabi Tushar Khot Bhavana Dalvi ... Niket Tandon Sumithra Bhakthavatsalam Dirk Groeneveld Michal Guerquin Michael Schmitz ELM 84 99 0 04 Sep 2019
Annotating Derivations: A New Evaluation Strategy and Dataset for Algebra Word Problems Shyam Upadhyay Ming-Wei Chang AIMat 54 58 0 23 Sep 2016