Title
Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States Yang Xiao Jiashuo Wang Qiancheng Xu Changhe Song Chunpu Xu Yi Cheng Wenjie Li Pengfei Liu 166 0 0 23 May 2025
Knot So Simple: A Minimalistic Environment for Spatial Reasoning Zizhao Chen Yoav Artzi LRM 244 0 0 23 May 2025
Systematic Generalization in Language Models Scales with Information Entropy Sondre Wold Lucas Georges Gabriel Charpentier Étienne Simon 191 0 0 19 May 2025
Insertion Language Models: Sequence Generation with Arbitrary-Position Insertions Dhruvesh Patel Aishwarya Sahoo Avinash Amballa Tahira Naseem Tim G. J. Rudner Andrew McCallum KELM 86 0 0 09 May 2025
Large Language and Reasoning Models are Shallow Disjunctive Reasoners Irtaza Khalid Amir Masoud Nourollah Steven Schockaert LRM 136 1 0 30 Mar 2025
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models Zhanke Zhou Zhaocheng Zhu Xuan Li Mikhail Galkin Xiao Feng Sanmi Koyejo Jian Tang Bo Han LRM 117 5 0 28 Mar 2025
MastermindEval: A Simple But Scalable Reasoning Benchmark Jonas Golde Patrick Haller Fabio Barth Alan Akbik LRM ReLM ELM 133 2 0 07 Mar 2025
MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs Andreas Opedal Haruki Shirakami Bernhard Schölkopf Abulhair Saparov Mrinmaya Sachan LRM 79 3 0 17 Feb 2025
Self-Improving Transformers Overcome Easy-to-Hard and Length Generalization Challenges Nayoung Lee Ziyang Cai Avi Schwarzschild Kangwook Lee Dimitris Papailiopoulos ReLM VLM LRM AI4CE 115 7 0 03 Feb 2025
Strassen Attention: Unlocking Compositional Abilities in Transformers Based on a New Lower Bound Method Alexander Kozachinskiy Felipe Urrutia Hector Jimenez Tomasz Steifer Germán Pizarro Matías Fuentes Francisco Meza Cristian Buc Cristóbal Rojas 129 1 0 31 Jan 2025
Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web Hiroki Furuta Yutaka Matsuo Aleksandra Faust Izzeddin Gur CLL 128 16 0 03 Jan 2025
Out-of-distribution generalization via composition: a lens through induction heads in Transformers Jiajun Song Zhuoyan Xu Yiqiao Zhong 128 10 0 31 Dec 2024
Sneaking Syntax into Transformer Language Models with Tree Regularization Ananjan Nandi Christopher D. Manning Shikhar Murty 119 0 0 28 Nov 2024
On Memorization of Large Language Models in Logical Reasoning Chulin Xie Yangsibo Huang Chiyuan Zhang Da Yu Xinyun Chen Bill Yuchen Lin Bo Li Badih Ghazi Ravi Kumar LRM 110 36 0 30 Oct 2024
Diffusion Beats Autoregressive: An Evaluation of Compositional Generation in Text-to-Image Models Arash Marioriyad Parham Rezaei M. Baghshah M. Rohban CoGe 383 0 0 30 Oct 2024
Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning Jiacheng Ye Jiahui Gao Shansan Gong Lin Zheng Xin Jiang Zhiyu Li Dianbo Sui DiffM LRM 124 23 0 18 Oct 2024
Artificial Kuramoto Oscillatory Neurons Takeru Miyato Sindy Löwe Andreas Geiger Max Welling AI4CE 157 9 0 17 Oct 2024
Interpreting token compositionality in LLMs: A robustness analysis Nura Aljaafari Danilo S. Carvalho André Freitas 86 2 0 16 Oct 2024
Automatic Curriculum Expert Iteration for Reliable LLM Reasoning Zirui Zhao Hanze Dong Amrita Saha Caiming Xiong Doyen Sahoo LRM 76 7 0 10 Oct 2024
ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models Lingfeng Zhang Yuening Wang Hongjian Gu Atia Hamidizadeh Zhanguang Zhang ... Tongtong Cao Yuzheng Zhuang Yingxue Zhang Jianye Hao Jianye Hao LM&Ro 80 1 0 02 Oct 2024
Can Models Learn Skill Composition from Examples? Haoyu Zhao Simran Kaur Dingli Yu Anirudh Goyal Sanjeev Arora CoGe MoE 71 7 0 29 Sep 2024
Compositional Hardness of Code in Large Language Models -- A Probabilistic Perspective Yotam Wolf Binyamin Rothberg Dorin Shteyman Amnon Shashua 57 0 0 26 Sep 2024
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning Zayne Sprague Fangcong Yin Juan Diego Rodriguez Dongwei Jiang Manya Wadhwa Prasann Singhal Xinyu Zhao Xi Ye Kyle Mahowald Greg Durrett ReLM LRM 171 114 0 18 Sep 2024
ACCORD: Closing the Commonsense Measurability Gap François Roewer-Després Jinyue Feng Zining Zhu Frank Rudzicz LRM 86 0 0 04 Jun 2024
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models Marianna Nezhurina Lucia Cipolina-Kun Mehdi Cherti J. Jitsev LLMAG LRM ELM ReLM 115 34 0 04 Jun 2024
Chain of Thoughtlessness? An Analysis of CoT in Planning Kaya Stechly Karthik Valmeekam Subbarao Kambhampati LRM LM&Ro 127 47 0 08 May 2024
3VL: Using Trees to Improve Vision-Language Models' Interpretability Nir Yellinek Leonid Karlinsky Raja Giryes CoGe VLM 224 3 0 28 Dec 2023
StructRe: Rewriting for Structured Shape Modeling Jiepeng Wang Hao Pan Yang Liu Xin Tong Taku Komura Wenping Wang 70 1 0 29 Nov 2023
Uncovering Intermediate Variables in Transformers using Circuit Probing Michael A. Lepori Thomas Serre Ellie Pavlick 104 7 0 07 Nov 2023
A Graph-to-Text Approach to Knowledge-Grounded Response Generation in Human-Robot Interaction Nicholas Walker Stefan Ultes Pierre Lison LM&Ro 113 1 0 03 Nov 2023
AutoMix: Automatically Mixing Language Models Pranjal Aggarwal Aman Madaan Ankit Anand Srividya Pranavi Potharaju Swaroop Mishra ... Karthik Kappaganthu Yiming Yang Shyam Upadhyay Manaal Faruqui Mausam 85 23 0 19 Oct 2023
The Expressive Power of Transformers with Chain of Thought William Merrill Ashish Sabharwal LRM AI4CE ReLM 57 41 0 11 Oct 2023
Explaining grokking through circuit efficiency Vikrant Varma Rohin Shah Zachary Kenton János Kramár Ramana Kumar 57 52 0 05 Sep 2023
Grokking of Hierarchical Structure in Vanilla Transformers Shikhar Murty Pratyusha Sharma Jacob Andreas Christopher D. Manning 73 47 0 30 May 2023
Explainable Verbal Reasoner Plus (EVR+): A Natural Language Reasoning Framework that Supports Diverse Compositional Reasoning Zhengzhong Liang Zeyu Zhang Steven Bethard Mihai Surdeanu ReLM LRM 57 1 0 28 Apr 2023
Self-Refine: Iterative Refinement with Self-Feedback Aman Madaan Niket Tandon Prakhar Gupta Skyler Hallinan Luyu Gao ... Bodhisattwa Prasad Majumder Katherine Hermann Sean Welleck Amir Yazdanbakhsh Peter Clark ReLM LRM DiffM 129 1,627 0 30 Mar 2023
Humans in Humans Out: On GPT Converging Toward Common Sense in both Success and Failure Philipp E. Koralus Vincent Wang-Ma'scianica LRM 23 13 0 30 Mar 2023
ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models Ning Bian Xianpei Han Le Sun Hongyu Lin Yaojie Lu Xianpei Han Shanshan Jiang Bin Dong KELM ELM AI4MH LRM 94 78 0 29 Mar 2023
A Tale of Two Circuits: Grokking as Competition of Sparse and Dense Subnetworks William Merrill Nikolaos Tsilivis Aman Shukla 43 52 0 21 Mar 2023
LLaMA: Open and Efficient Foundation Language Models Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux ... Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave Guillaume Lample ALM PILM 1.4K 13,167 0 27 Feb 2023
Is ChatGPT a General-Purpose Natural Language Processing Task Solver? Chengwei Qin Aston Zhang Zhuosheng Zhang Jiaao Chen Michihiro Yasunaga Diyi Yang LM&MA AI4MH LRM ELM 133 698 0 08 Feb 2023
Tighter Bounds on the Expressivity of Transformer Encoders David Chiang Peter A. Cholak A. Pillay 71 58 0 25 Jan 2023
Scaling Laws for Generative Mixed-Modal Language Models Armen Aghajanyan L. Yu Alexis Conneau Wei-Ning Hsu Karen Hambardzumyan Susan Zhang Stephen Roller Naman Goyal Omer Levy Luke Zettlemoyer MoE VLM 64 107 0 10 Jan 2023
Diverse Demonstrations Improve In-context Compositional Generalization Itay Levy Ben Bogin Jonathan Berant 73 143 0 13 Dec 2022
Galactica: A Large Language Model for Science Ross Taylor Marcin Kardas Guillem Cucurull Thomas Scialom Anthony Hartshorn Elvis Saravia Andrew Poulton Viktor Kerkez Robert Stojnic ELM ReLM 98 766 0 16 Nov 2022
Teaching Algorithmic Reasoning via In-context Learning Hattie Zhou Azade Nova Hugo Larochelle Rameswar Panda Behnam Neyshabur Hanie Sedghi LRM ReLM 62 114 0 15 Nov 2022
Generating Sequences by Learning to Self-Correct Sean Welleck Ximing Lu Peter West Faeze Brahman T. Shen Daniel Khashabi Yejin Choi LRM 66 233 0 31 Oct 2022
Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs Maarten Sap Ronan Le Bras Daniel Fried Yejin Choi 76 223 0 24 Oct 2022
Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs Albert Q. Jiang Sean Welleck Jin Peng Zhou Wenda Li Jiacheng Liu M. Jamnik Timothée Lacroix Yuhuai Wu Guillaume Lample AIMat 89 174 0 21 Oct 2022
Scaling Instruction-Finetuned Language Models Hyung Won Chung Le Hou Shayne Longpre Barret Zoph Yi Tay ... Jacob Devlin Adam Roberts Denny Zhou Quoc V. Le Jason W. Wei ReLM LRM 167 3,116 0 20 Oct 2022