Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning

v1v2 (latest)

Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning

22 May 2025

ArXiv (abs)PDF HTML

Papers citing "Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning"

17 / 17 papers shown

Title
SuperBPE: Space Travel for Language Models Alisa Liu J. Hayase Valentin Hofmann Sewoong Oh Noah A. Smith Yejin Choi 157 10 0 17 Mar 2025
Exploring Large Language Models for Climate Forecasting Yang Wang Hassan A. Karimi 96 4 0 20 Nov 2024
HistoLens: An LLM-Powered Framework for Multi-Layered Analysis of Historical Texts -- A Case Application of Yantie Lun Yifan Zeng 35 2 0 15 Nov 2024
Measuring short-form factuality in large language models Jason W. Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman W. Fedus ELM KELM HILM 80 78 0 07 Nov 2024
Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP François Remy Pieter Delobelle H. Avetisyan A. Khabibullina Miryam de Lhoneux Thomas Demeester 60 18 0 08 Aug 2024
Gemma 2: Improving Open Language Models at a Practical Size Gemma Team Gemma Team Morgane Riviere Shreya Pathak Pier Giuseppe Sessa Cassidy Hardin ... Noah Fiedel Armand Joulin Kathleen Kenealy Robert Dadashi Alek Andreev VLM MoE OSLM 154 924 0 31 Jul 2024
Understanding and Mitigating Tokenization Bias in Language Models Buu Phan Marton Havasi Matthew Muckley Karen Ullrich 120 8 0 24 Jun 2024
Timo: Towards Better Temporal Reasoning for Language Models Zhaochen Su Jun Zhang Tong Zhu Xiaoye Qu Juntao Li Min Zhang Yu Cheng LRM 96 23 0 20 Jun 2024
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning Bahare Fatemi Mehran Kazemi Anton Tsitsulin Karishma Malkan Jinyeong Yim John Palowitch Sungyong Seo Jonathan J. Halcrow Bryan Perozzi LRM 100 39 0 13 Jun 2024
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone Marah Abdin Sam Ade Jacobs A. A. Awan J. Aneja Ahmed Hassan Awadallah ... Li Zhang Yi Zhang Yue Zhang Yunan Zhang Xiren Zhou LRM ALM 221 1,278 0 22 Apr 2024
Unpacking Tokenization: Evaluating Text Compression and its Correlation with Model Performance Omer Goldman Avi Caciularu Matan Eyal Kris Cao Idan Szpektor Reut Tsarfaty 115 31 0 10 Mar 2024
Tokenization Is More Than Compression Craig W. Schmidt Varshini Reddy Haoran Zhang Alec Alameddine Omri Uzan Yuval Pinter Chris Tanner 124 38 0 28 Feb 2024
Tokenization counts: the impact of tokenization on arithmetic in frontier LLMs Aaditya K. Singh DJ Strouse 119 61 0 22 Feb 2024
Large Language Models Can Learn Temporal Reasoning Siheng Xiong Ali Payani Ramana Rao Kompella Faramarz Fekri LRM 122 97 0 12 Jan 2024
Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning Qingyu Tan Hwee Tou Ng Lidong Bing 107 11 0 16 Nov 2023
LLM4TS: Aligning Pre-Trained LLMs as Data-Efficient Time-Series Forecasters Ching Chang Wei-Yao Wang Wenjie Peng Tien-Fu Chen AI4TS 158 61 0 16 Aug 2023
A Dataset for Answering Time-Sensitive Questions Wenhu Chen Xinyi Wang Wenjie Wang 126 130 0 13 Aug 2021