Title
SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards Chuming Shen Wei Wei Xiaoye Qu Yu Cheng LRM 174 1 0 25 May 2025
Doc-CoB: Enhancing Multi-Modal Document Understanding with Visual Chain-of-Boxes Reasoning Ye Mo Zirui Shao Kai Ye Xianwei Mao Bo Zhang ... Gang Huang Kehan Chen Zhou Huan Zixu Yan Sheng Zhou LRM 53 0 0 24 May 2025
VisRL: Intention-Driven Visual Perception via Reinforced Reasoning Zhangquan Chen Xufang Luo Dongsheng Li OffRL LRM 125 3 0 10 Mar 2025
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models Haodong Duan Junming Yang Junming Yang Xinyu Fang Lin Chen ... Yuhang Zang Pan Zhang Jiaqi Wang Dahua Lin Kai Chen LM&MA VLM 180 178 0 16 Jul 2024
DistilDoc: Knowledge Distillation for Visually-Rich Document Applications Jordy Van Landeghem Subhajit Maity Ayan Banerjee Matthew Blaschko Marie-Francine Moens Josep Lladós Sanket Biswas 121 2 0 12 Jun 2024
T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics Yiwei Qin Weizhe Yuan Graham Neubig Pengfei Liu 65 23 0 12 Dec 2022
Hierarchical multimodal transformers for Multi-Page DocVQA Rubèn Pérez Tito Dimosthenis Karatzas Ernest Valveny 80 61 0 07 Dec 2022
Towards Improving Calibration in Object Detection Under Domain Shift Muhammad Akhtar Munir M. H. Khan M. Sarfraz Mohsen Ali 38 23 0 15 Sep 2022
Towards Complex Document Understanding By Discrete Reasoning Fengbin Zhu Wenqiang Lei Fuli Feng Chao Wang Haozhou Zhang Tat-Seng Chua 84 48 0 25 Jul 2022
STable: Table Generation Framework for Encoder-Decoder Models Michal Pietruszka M. Turski Łukasz Borchmann Tomasz Dwojak Gabriela Pałka Karolina Szyndler Dawid Jurkiewicz Lukasz Garncarek LMTD 66 18 0 08 Jun 2022
End-to-end Spoken Conversational Question Answering: Task, Dataset and Model Chenyu You Nuo Chen Fenglin Liu Shen Ge Xian Wu Yuexian Zou AuLLM 58 43 0 29 Apr 2022
Unified Pretraining Framework for Document Understanding Jiuxiang Gu Jason Kuen Vlad I. Morariu Handong Zhao Nikolaos Barmpalios R. Jain A. Nenkova Tong Sun 80 98 0 22 Apr 2022
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking Yupan Huang Tengchao Lv Lei Cui Yutong Lu Furu Wei 99 461 0 18 Apr 2022
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks Swaroop Mishra Arindam Mitra Neeraj Varshney Bhavdeep Singh Sachdeva Peter Clark Chitta Baral Ashwin Kalyan AIMat ReLM ELM LRM 92 110 0 12 Apr 2022
DiT: Self-supervised Pre-training for Document Image Transformer Junlong Li Yiheng Xu Tengchao Lv Lei Cui Chaoxi Zhang Furu Wei ViT VLM 104 167 0 04 Mar 2022
PubTables-1M: Towards comprehensive table extraction from unstructured documents B. Smock Rohith Pesala Robin Abraham LMTD 95 103 0 30 Sep 2021
CodeQA: A Question Answering Dataset for Source Code Comprehension Chenxiao Liu Xiaojun Wan 102 29 0 17 Sep 2021
DocFormer: End-to-End Transformer for Document Understanding Srikar Appalaraju Bhavan A. Jasani Bhargava Urala Kota Yusheng Xie R. Manmatha ViT 96 280 0 22 Jun 2021
SelfDoc: Self-Supervised Document Representation Learning Peizhao Li Jiuxiang Gu Jason Kuen Vlad I. Morariu Handong Zhao R. Jain Varun Manjunatha Hongfu Liu ViT SSL 82 162 0 07 Jun 2021
Knowing More About Questions Can Help: Improving Calibration in Question Answering Shujian Zhang Chengyue Gong Eunsol Choi UQLM 92 59 0 02 Jun 2021
Kleister: Key Information Extraction Datasets Involving Long Documents with Complex Layouts Tomasz Stanislawek Filip Graliñski Anna Wróblewska Dawid Lipiñski Agnieszka Kaliska Paulina Rosalska Bartosz Topolski P. Biecek 81 95 0 12 May 2021
InfographicVQA Minesh Mathew Viraj Bagal Rubèn Pérez Tito Dimosthenis Karatzas Ernest Valveny C. V. Jawahar 106 242 0 26 Apr 2021
Conversational Question Answering over Knowledge Graphs with Transformer and Graph Attention Networks Endri Kacupaj Joan Plepi Kuldeep Singh Harsh Thakkar Jens Lehmann M. Maleshkova LMTD GNN 76 53 0 04 Apr 2021
Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer Rafal Powalski Łukasz Borchmann Dawid Jurkiewicz Tomasz Dwojak Michal Pietruszka Gabriela Pałka ViT 83 160 0 18 Feb 2021
VisualMRC: Machine Reading Comprehension on Document Images Ryota Tanaka Kyosuke Nishida Sen Yoshida 93 145 0 27 Jan 2021
On Calibration of Scene-Text Recognition Models Ron Slossberg Oron Anschel Amir Markovitz Ron Litman Aviad Aberdam Shahar Tsiper Shai Mazor Jon Wu R. Manmatha 59 13 0 23 Dec 2020
Mitigating Bias in Calibration Error Estimation Rebecca Roelofs Nicholas Cain Jonathon Shlens Michael C. Mozer 93 95 0 15 Dec 2020
Document Visual Question Answering Challenge 2020 Minesh Mathew Rubèn Pérez Tito Dimosthenis Karatzas R. Manmatha C. V. Jawahar 52 16 0 20 Aug 2020
MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering Shayne Longpre Yi Lu Joachim Daiber ELM HILM 100 161 0 30 Jul 2020
Big Bird: Transformers for Longer Sequences Manzil Zaheer Guru Guruganesh Kumar Avinava Dubey Joshua Ainslie Chris Alberti ... Philip Pham Anirudh Ravula Qifan Wang Li Yang Amr Ahmed VLM 573 2,105 0 28 Jul 2020
Selective Question Answering under Domain Shift Amita Kamath Robin Jia Percy Liang OOD 58 214 0 16 Jun 2020
BIOMRC: A Dataset for Biomedical Machine Reading Comprehension Petros Stavropoulos Dimitris Pappas Ion Androutsopoulos Ryan T. McDonald 60 51 0 13 May 2020
Global Table Extractor (GTE): A Framework for Joint Table Identification and Cell Structure Recognition Using Visual Context Xinyi Zheng Doug Burdick Lucian Popa Xu Zhong N. Wang LMTD 73 153 0 01 May 2020
SubjQA: A Dataset for Subjectivity and Review Comprehension Johannes Bjerva Nikita Bhutani Behzad Golshan W. Tan Isabelle Augenstein 59 43 0 29 Apr 2020
Longformer: The Long-Document Transformer Iz Beltagy Matthew E. Peters Arman Cohan RALM VLM 187 4,105 0 10 Apr 2020
TutorialVQA: Question Answering Dataset for Tutorial Videos Anthony Colas Seokhwan Kim Franck Dernoncourt Siddhesh Gupte D. Wang Doo Soon Kim 46 31 0 02 Dec 2019
Image-based table recognition: data, model, and evaluation Xu Zhong Elaheh Shafieibavani Antonio Jimeno Yepes LMTD 108 223 0 25 Nov 2019
JuICe: A Large Scale Distantly Supervised Dataset for Open Domain Context-based Code Generation R. Agashe R. Campello Arthur Zimek 78 84 0 05 Oct 2019
Verified Uncertainty Calibration Ananya Kumar Percy Liang Tengyu Ma 185 359 0 23 Sep 2019
RUN through the Streets: A New Dataset and Baseline Models for Realistic Urban Navigation Tzuf Paz-Argaman Reut Tsarfaty 70 19 0 19 Sep 2019
PubMedQA: A Dataset for Biomedical Research Question Answering Qiao Jin Bhuwan Dhingra Zhengping Liu William W. Cohen Xinghua Lu 401 914 0 13 Sep 2019
Quoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning Pradeep Dasigi Nelson F. Liu Ana Marasović Noah A. Smith Matt Gardner RALM 75 174 0 16 Aug 2019
PubLayNet: largest dataset ever for document layout analysis Xu Zhong Jianbin Tang Antonio Jimeno Yepes 52 462 0 16 Aug 2019
ICDAR 2019 Competition on Scene Text Visual Question Answering Ali Furkan Biten Rubèn Pérez Tito Andrés Mafla Lluís Gómez Marçal Rusiñol Minesh Mathew C. V. Jawahar Ernest Valveny Dimosthenis Karatzas 68 76 0 30 Jun 2019
Scene Text Visual Question Answering Ali Furkan Biten Rubèn Pérez Tito Andrés Mafla Lluís Gómez Marçal Rusiñol Ernest Valveny C. V. Jawahar Dimosthenis Karatzas 116 361 0 31 May 2019
FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents Guillaume Jaume H. K. Ekenel Jean-Philippe Thiran 170 372 0 27 May 2019
KT-Speech-Crawler: Automatic Dataset Construction for Speech Recognition from YouTube Videos Egor Lakomkin S. Magg C. Weber S. Wermter 32 19 0 01 Mar 2019
Evaluating model calibration in classification Juozas Vaicenavicius David Widmann Carl R. Andersson Fredrik Lindsten Jacob Roll Thomas B. Schon UQCV 157 200 0 19 Feb 2019
Know What You Don't Know: Unanswerable Questions for SQuAD Pranav Rajpurkar Robin Jia Percy Liang RALM ELM 292 2,854 0 11 Jun 2018
FEVER: a large-scale dataset for Fact Extraction and VERification James Thorne Andreas Vlachos Christos Christodoulopoulos Arpit Mittal HILM 174 1,667 0 14 Mar 2018