Title
ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities Ezra Karger Houtan Bastani Chen Yueh-Han Zachary Jacobs Danny Halawi Fred Zhang P. Tetlock 58 7 0 30 Sep 2024
Infer Human's Intentions Before Following Natural Language Instructions Yanming Wan Yue Wu Yiping Wang Jiayuan Mao Natasha Jaques LM&Ro 28 3 0 26 Sep 2024
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models Tongxuan Liu Wenjiang Xu Weizhe Huang Yuting Zeng Jiaxing Wang Hailong Yang Hailong Yang Jing Li LRM ReLM 52 6 0 26 Sep 2024
Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia Zhejian Zhou Jiayu Wang Dahua Lin Kai Chen LRM 45 2 0 25 Sep 2024
GroupDebate: Enhancing the Efficiency of Multi-Agent Debate Using Group Discussion Tongxuan Liu Xingyu Wang Weizhe Huang Wenjiang Xu Yuting Zeng Lei Jiang Hailong Yang Jing Li LLMAG 44 8 0 21 Sep 2024
Uncovering Latent Chain of Thought Vectors in Language Models Jason Zhang Scott Viteri LLMSV LRM 49 2 0 21 Sep 2024
Contextual Compression in Retrieval-Augmented Generation for Large Language Models: A Survey Sourav Verma RALM 3DV 37 2 0 20 Sep 2024
Retrieve, Annotate, Evaluate, Repeat: Leveraging Multimodal LLMs for Large-Scale Product Retrieval Evaluation Kasra Hosseini Thomas Kober Josip Krapac Roland Vollgraf Weiwei Cheng Ana Peleteiro Ramallo 24 2 0 18 Sep 2024
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning Zayne Sprague Fangcong Yin Juan Diego Rodriguez Dongwei Jiang Manya Wadhwa Prasann Singhal Xinyu Zhao Xi Ye Kyle Mahowald Greg Durrett ReLM LRM 125 89 0 18 Sep 2024
Large Language Models and the Extended Church-Turing Thesis Jiří Wiedermann Jan van Leeuwen 28 0 0 11 Sep 2024
Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature Uri Katz Mosh Levy Yoav Goldberg 31 4 0 28 Aug 2024
Writing in the Margins: Better Inference Pattern for Long Context Retrieval M. Russak Umar Jamil Christopher Bryant Kiran Kamble Axel Magnuson Mateusz Russak Waseem Alshikh 35 2 0 27 Aug 2024
Symbolic Working Memory Enhances Language Models for Complex Rule Application Siyuan Wang Zhongyu Wei Yejin Choi Xiang Ren LRM LLMAG 56 11 0 24 Aug 2024
Understanding Defects in Generated Codes by Language Models Ali Mohammadi Esfahani N. Kahani S. Ajila 30 1 0 23 Aug 2024
Reasoning and Tools for Human-Level Forecasting Elvis Hsieh Preston Fu Jonathan Chen ReLM LLMAG LRM 39 1 0 21 Aug 2024
Your Context Is Not an Array: Unveiling Random Access Limitations in Transformers MohammadReza Ebrahimi Sunny Panchal Roland Memisevic 41 5 0 10 Aug 2024
AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? Ori Yoran S. Amouyal Chaitanya Malaviya Ben Bogin Ofir Press Jonathan Berant LLMAG 39 33 0 22 Jul 2024
Steamroller Problems: An Evaluation of LLM Reasoning Capability with Automated Theorem Prover Strategies Lachlan McGinness Peter Baumgartner LRM 29 0 0 17 Jul 2024
Representing Rule-based Chatbots with Transformers Dan Friedman Abhishek Panigrahi Danqi Chen 71 1 0 15 Jul 2024
Lean-STaR: Learning to Interleave Thinking and Proving Haohan Lin Zhiqing Sun Yiming Yang Sean Welleck ReLM LRM 72 25 0 14 Jul 2024
MAVIS: Mathematical Visual Instruction Tuning Renrui Zhang Xinyu Wei Dongzhi Jiang Yichi Zhang Ziyu Guo ... Aojun Zhou Bin Wei Shanghang Zhang Peng Gao Hongsheng Li MLLM 42 27 0 11 Jul 2024
Distilling System 2 into System 1 Ping Yu Jing Xu Jason Weston Ilia Kulikov OffRL LRM 54 62 0 08 Jul 2024
Solving for X and Beyond: Can Large Language Models Solve Complex Math Problems with More-Than-Two Unknowns? Kuei-Chun Kao Ruochen Wang Cho-Jui Hsieh ELM LRM 42 3 0 06 Jul 2024
Re-Tuning: Overcoming the Compositionality Limits of Large Language Models with Recursive Tuning Eric Pasewark Kyle Montgomery Kefei Duan Dawn Song Chenguang Wang LRM CLL ReLM 44 1 0 05 Jul 2024
Universal Length Generalization with Turing Programs Kaiying Hou David Brandfonbrener Sham Kakade Samy Jelassi Eran Malach 49 8 0 03 Jul 2024
Symbolic Learning Enables Self-Evolving Agents Wangchunshu Zhou Yixin Ou Shengwei Ding Long Li Jialong Wu ... Shuai Wang Xiaohua Xu Ningyu Zhang Huajun Chen Yuchen Eleanor Jiang AI4CE LM&Ro LLMAG 50 24 0 26 Jun 2024
Improving Arithmetic Reasoning Ability of Large Language Models through Relation Tuples, Verification and Dynamic Feedback Zhongtao Miao Kaiyan Zhao Yoshimasa Tsuruoka KELM LRM 44 2 0 25 Jun 2024
Cognitive Map for Language Models: Optimal Planning via Verbally Representing the World Model Doyoung Kim Jongwon Lee Jinho Park Minjoon Seo LM&Ro 44 0 0 21 Jun 2024
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities Sachit Menon Richard Zemel Carl Vondrick LRM 45 2 0 20 Jun 2024
On the Representational Capacity of Neural Language Models with Chain-of-Thought Reasoning Franz Nowak Anej Svete Alexandra Butoi Ryan Cotterell ReLM LRM 54 13 0 20 Jun 2024
APEER: Automatic Prompt Engineering Enhances Large Language Model Reranking Can Jin Hongwu Peng Shiyu Zhao Zhenting Wang Wujiang Xu Ligong Han Jiahui Zhao Kai Zhong Sanguthevar Rajasekaran Dimitris N. Metaxas KELM 44 32 0 20 Jun 2024
Combinatorial Reasoning: Selecting Reasons in Generative AI Pipelines via Combinatorial Optimization Mert Esencan Tarun Advaith Kumar A. A. Asanjan P. A. Lott Masoud Mohseni Can Unlu Davide Venturelli A. Ho LRM 40 0 0 19 Jun 2024
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? Jinhyuk Lee Anthony Chen Zhuyun Dai Dheeru Dua Devendra Singh Sachan ... Jeremy R. Cole Sebastian Riedel Iftekhar Naim Ming-Wei Chang Kelvin Guu RALM LRM 58 31 0 19 Jun 2024
A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning Lijie Hu Liang Liu Shu Yang Xin Chen Hongru Xiao Mengdi Li Pan Zhou Muhammad Asif Ali Di Wang LRM 53 5 0 18 Jun 2024
A Notion of Complexity for Theory of Mind via Discrete World Models X. A. Huang Emanuele La Malfa Samuele Marro Andrea Asperti Anthony Cohn Michael Wooldridge 45 6 0 16 Jun 2024
HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies William Watson Nicole Cho T. Balch Manuela Veloso LMTD 33 0 0 16 Jun 2024
Retrieval & Fine-Tuning for In-Context Tabular Models Valentin Thomas Junwei Ma Rasa Hosseinzadeh Keyvan Golestan Guangwei Yu M. Volkovs Anthony L. Caterini 41 12 0 07 Jun 2024
Morescient GAI for Software Engineering Marcus Kessel Colin Atkinson SyDa 41 3 0 07 Jun 2024
On Limitation of Transformer for Learning HMMs Jiachen Hu Qinghua Liu Chi Jin 50 3 0 06 Jun 2024
Pre-trained Large Language Models Use Fourier Features to Compute Addition Tianyi Zhou Deqing Fu Vatsal Sharan Robin Jia LRM 34 9 0 05 Jun 2024
Break the Chain: Large Language Models Can be Shortcut Reasoners Mengru Ding Hanmeng Liu Zhizhang Fu Jian Song Wenbo Xie Yue Zhang KELM LRM 36 7 0 04 Jun 2024
Iteration Head: A Mechanistic Study of Chain-of-Thought Vivien A. Cabannes Charles Arnal Wassim Bouaziz Alice Yang Francois Charton Julia Kempe LRM 27 7 0 04 Jun 2024
Explicitly Encoding Structural Symmetry is Key to Length Generalization in Arithmetic Tasks Mahdi Sabbaghi George Pappas Hamed Hassani Surbhi Goel 45 4 0 04 Jun 2024
SemCoder: Training Code Language Models with Comprehensive Semantics Yangruibo Ding Jinjun Peng Marcus J. Min Gail E. Kaiser Junfeng Yang Baishakhi Ray OffRL 65 16 0 03 Jun 2024
Re-ReST: Reflection-Reinforced Self-Training for Language Agents Zi-Yi Dou Cheng-Fu Yang Xueqing Wu Kai-Wei Chang Nanyun Peng LRM 88 7 0 03 Jun 2024
Arbitrary-Length Generalization for Addition in a Tiny Transformer A. G. Patriota 26 0 0 31 May 2024
Why Larger Language Models Do In-context Learning Differently? Zhenmei Shi Junyi Wei Zhuoyan Xu Yingyu Liang 37 21 0 30 May 2024
Understanding Transformer Reasoning Capabilities via Graph Algorithms Clayton Sanford Bahare Fatemi Ethan Hall Anton Tsitsulin Seyed Mehran Kazemi Jonathan J. Halcrow Bryan Perozzi Vahab Mirrokni 46 31 0 28 May 2024
THREAD: Thinking Deeper with Recursive Spawning Philip Schroeder Nathaniel Morgan Hongyin Luo James R. Glass LRM LLMAG ReLM 40 1 0 27 May 2024
From Frege to chatGPT: Compositionality in language, cognition, and deep neural networks Jacob Russin Sam Whitman McGrath Danielle J. Williams Lotem Elber-Dorozko AI4CE 81 3 0 24 May 2024