Nougat: Neural Optical Understanding for Academic Documents

25 August 2023

Papers citing "Nougat: Neural Optical Understanding for Academic Documents"

21 / 21 papers shown

Title
HiPerRAG: High-Performance Retrieval Augmented Generation for Scientific Insights Ozan Gokdemir Carlo Siebenschuh Alexander Brace Azton Wells Brian Hsu ... A. Anandkumar Ian Foster R. Stevens V. Vishwanath A. Ramanathan VLM 37 0 0 07 May 2025
GDI-Bench: A Benchmark for General Document Intelligence with Vision and Reasoning Decoupling Siqi Li Yufan Shen Xiangnan Chen Jiayi Chen Hengwei Ju ... Licheng Wen Botian Shi Y. Liu Xinyu Cai Yu Qiao VLM ELM 91 0 0 30 Apr 2025
AutoP2C: An LLM-Based Agent Framework for Code Repository Generation from Multimodal Content in Academic Papers Zijie Lin Yiqing Shen Qilin Cai He Sun Jinrui Zhou Mingjun Xiao 60 0 0 28 Apr 2025
AdaParse: An Adaptive Parallel PDF Parsing and Resource Scaling Engine Carlo Siebenschuh Kyle Hippe Ozan Gokdemir Alexander Brace A. Khan ... V. Vishwanath R. Stevens Arvind Ramanathan Ian Foster Robert Underwood MoE 49 0 0 23 Apr 2025
Perception-R1: Pioneering Perception Policy with Reinforcement Learning En Yu Kangheng Lin Liang Zhao Jisheng Yin Yana Wei ... Zheng Ge Xiangyu Zhang Daxin Jiang Jingyu Wang Wenbing Tao VLM OffRL LRM 40 3 0 10 Apr 2025
UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis Jiawei Wang Kai Hu Qiang Huo 58 0 0 20 Mar 2025
Towards Efficient Educational Chatbots: Benchmarking RAG Frameworks Umar Ali Khan Ekram Khan Fiza Khan A. A. Moinuddin 48 0 0 02 Mar 2025
Repurposing the scientific literature with vision-language models Anton Alyakin Jaden Stryker Daniel Alber Karl L. Sangwon Brandon Duderstadt ... Laura Snyder Eric Leuthardt Douglas Kondziolka E. Oermann Eric Karl Oermann 101 0 0 26 Feb 2025
$\Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents$ \Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents Ilia Karmanov A. Deshmukh Lukas Voegtle Philipp Fischer Kateryna Chumachenko ... Jarno Seppänen Jupinder Parmar Joseph Jennings Andrew Tao Karan Sapra 73 0 0 06 Feb 2025
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations Linke Ouyang Yuan Qu Hongbin Zhou Jiawei Zhu Rui Zhang ... Chao Xu Bo Zhang Botian Shi Zhongying Tu Zeang Sheng 101 5 0 10 Dec 2024
MolParser: End-to-end Visual Recognition of Molecule Structures in the Wild Xi Fang Jiankun Wang X. Cai Shangqian Chen Shuwen Yang Lin Yao Linfeng Zhang Guolin Ke Linfeng Zhang Guolin Ke 50 1 0 17 Nov 2024
LSHBloom: Memory-efficient, Extreme-scale Document Deduplication A. Khan Robert Underwood Carlo Siebenschuh Y. Babuji Aswathy Ajith Kyle Hippe Ozan Gokdemir Alexander Brace Kyle Chard Ian Foster 38 0 0 06 Nov 2024
AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing Huawei Ji Cheng Deng Bo Xue Zhouyang Jin Jiaxin Ding Xiaoying Gan Luoyi Fu Xinbing Wang Chenghu Zhou 31 0 0 16 Sep 2024
PdfTable: A Unified Toolkit for Deep Learning-Based Table Extraction Lei Sheng Shuai-Shuai Xu LMTD 37 0 0 08 Sep 2024
Scaling Automatic Extraction of Pseudocode Levent Toksoz Gang Tan C. L. Giles 38 0 0 07 Jun 2024
Improving Automatic Text Recognition with Language Models in the PyLaia Open-Source Library Solène Tarride Yoann Schneider Marie Generali-Lince Mélodie Boillet Bastien Abadie Christopher Kermorvant 28 3 0 29 Apr 2024
MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition Felix M. Schmitt-Koopmann Elaine M. Huang Hans-Peter Hutter Thilo Stadelmann Alireza Darvishy 32 4 0 21 Apr 2024
LOCR: Location-Guided Transformer for Optical Character Recognition Yu Sun Dongzhan Zhou Chen Lin Conghui He Wanli Ouyang Han-Sen Zhong 40 1 0 04 Mar 2024
ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning Fanqing Meng Wenqi Shao Quanfeng Lu Peng Gao Kaipeng Zhang Yu Qiao Ping Luo 31 45 0 04 Jan 2024
TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models Minghao Li Tengchao Lv Jingye Chen Lei Cui Yijuan Lu D. Florêncio Cha Zhang Zhoujun Li Furu Wei ViT 98 343 0 21 Sep 2021
LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding Yang Xu Yiheng Xu Tengchao Lv Lei Cui Furu Wei ... D. Florêncio Cha Zhang Wanxiang Che Min Zhang Lidong Zhou ViT MLLM 153 498 0 29 Dec 2020