Are LLMs Capable of Data-based Statistical and Causal Reasoning?
Benchmarking Advanced Quantitative Reasoning with Data

Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data

27 February 2024

Papers citing "Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data"

18 / 18 papers shown

Title
EllieSQL: Cost-Efficient Text-to-SQL with Complexity-Aware Routing Yizhang Zhu Runzhi Jiang Boyan Li Nan Tang Yuyu Luo 34 0 0 28 Mar 2025
StatLLM: A Dataset for Evaluating the Performance of Large Language Models in Statistical Analysis Xinyi Song Lina Lee Kexin Xie Xueying Liu Xinwei Deng Yili Hong ALM ELM 119 0 0 24 Feb 2025
An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science Qiuhai Zeng Claire Jin Xinyue Wang Yuhan Zheng Qunhua Li 40 0 0 23 Feb 2025
When Dimensionality Hurts: The Role of LLM Embedding Compression for Noisy Regression Tasks Felix Drinkall J. Pierrehumbert Stefan Zohren 58 0 0 04 Feb 2025
Causality for Large Language Models Anpeng Wu Kun Kuang Minqin Zhu Yingrong Wang Yujia Zheng Kairong Han B. Li Guangyi Chen Fei Wu Kun Zhang LRM 46 7 0 20 Oct 2024
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection Yibo Yan Shen Wang Jiahao Huo Hang Li B. Li ... Kun Wang Hui Xiong Philip S. Yu Xuming Hu Qingsong Wen LRM 28 13 0 06 Oct 2024
Data Analysis in the Era of Generative AI J. Inala Chenglong Wang Steven Drucker Gonzalo Ramos Victor C. Dibia N. Riche Dave Brown Dan Marshall Jianfeng Gao 20 7 0 27 Sep 2024
CoverBench: A Challenging Benchmark for Complex Claim Verification Alon Jacovi Moran Ambar Eyal Ben-David Uri Shaham Amir Feder Mor Geva Dror Marcus Avi Caciularu LMTD 45 3 0 06 Aug 2024
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models Bodhisattwa Prasad Majumder Harshit Surana Dhruv Agarwal Bhavana Dalvi Mishra Abhijeetsingh Meena Aryan Prakhar Tirth Vora Tushar Khot Ashish Sabharwal Peter Clark ELM 37 9 0 01 Jul 2024
When Search Engine Services meet Large Language Models: Visions and Challenges Haoyi Xiong Jiang Bian Yuchen Li Xuhong Li Mengnan Du Shuaiqiang Wang Dawei Yin Sumi Helal 50 28 0 28 Jun 2024
CLEAR: Can Language Models Really Understand Causal Graphs? Sirui Chen Mengying Xu Kun Wang Xingyu Zeng Rui Zhao Shengjie Zhao Chaochao Lu LRM ELM 27 7 0 24 Jun 2024
What Are the Odds? Language Models Are Capable of Probabilistic Reasoning Akshay Paruchuri Jake Garrison Shun Liao John Hernandez Jacob Sunshine Tim Althoff Xin Liu Daniel J. McDuff LRM 36 7 0 18 Jun 2024
Are Large Language Models Good Statisticians? Yizhang Zhu Shiyin Du Boyan Li Yuyu Luo Nan Tang ELM 32 15 0 12 Jun 2024
Can Large Language Models put 2 and 2 together? Probing for Entailed Arithmetical Relationships D. Panas S. Seth V. Belle ReLM LRM 26 2 0 30 Apr 2024
Evaluating Interventional Reasoning Capabilities of Large Language Models Tejas Kasetty Divyat Mahajan Gintare Karolina Dziugaite Alexandre Drouin Dhanya Sridhar LRM ELM 54 5 0 08 Apr 2024
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation Xueqing Wu Rui Zheng Jingzhen Sha Te-Lin Wu Hanyu Zhou Mohan Tang Kai-Wei Chang Nanyun Peng Haoran Huang 47 1 0 04 Mar 2024
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 233 2,477 0 06 Oct 2022
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark A. Kalyan ELM ReLM LRM 211 1,105 0 20 Sep 2022