On the Use of ArXiv as a Dataset

30 April 2019

Papers citing "On the Use of ArXiv as a Dataset"

23 / 23 papers shown

Title
OmniScience: A Domain-Specialized LLM for Scientific Reasoning and Discovery Vignesh Prabhakar Md Amirul Islam Adam Atanas Yansen Wang J. N. Han ... Rucha Apte Robert Clark Kang Xu Zihan Wang Kai Liu LRM 88 2 0 22 Mar 2025
Key, Value, Compress: A Systematic Exploration of KV Cache Compression Techniques Neusha Javidnia B. Rouhani F. Koushanfar 223 0 0 14 Mar 2025
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs Christoph Schuhmann Gollam Rabby Ameya Prabhu Tawsif Ahmed Andreas Hochlehnert ... Ludwig Schmidt R. Kaczmarczyk Sören Auer J. Jitsev Matthias Bethge 87 0 0 26 Feb 2025
LongAttn: Selecting Long-context Training Data via Token-level Attention Longyun Wu Dawei Zhu Guangxiang Zhao Zhuocheng Yu Junfeng Ran Xiangyu Wong Lin Sun Sujian Li 52 0 0 24 Feb 2025
DCAD-2000: A Multilingual Dataset across 2000+ Languages with Data Cleaning as Anomaly Detection Yingli Shen Wen Lai Shuo Wang Xueren Zhang Kangyang Luo Alexander Fraser Maosong Sun 49 1 0 17 Feb 2025
Can AI-Generated Text be Reliably Detected? Vinu Sankar Sadasivan Aounon Kumar S. Balasubramanian Wenxiao Wang S. Feizi DeLMO 81 368 0 20 Jan 2025
TeXBLEU: Automatic Metric for Evaluate LaTeX Format Kyudan Jung N. Kim Hyongon Ryu Sieun Hyeon Seung-jun Lee Hyeok-jae Lee 39 0 0 10 Sep 2024
MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation Jinsheng Huang Liang Chen Taian Guo Fu Zeng Yusheng Zhao ... Wei Ju Luchen Liu Tianyu Liu Baobao Chang Ming Zhang 46 5 0 29 Jun 2024
Figuring out Figures: Using Textual References to Caption Scientific Figures Stanley Cao Kevin Liu 44 0 0 25 Jun 2024
To Burst or Not to Burst: Generating and Quantifying Improbable Text Kuleen Sasse Samuel Barham Efsun Sarioglu Kayi Edward W. Staley DeLMO 27 1 0 27 Jan 2024
Extracting Text Representations for Terms and Phrases in Technical Domains Francesco Fusco Diego Antognini 35 0 0 25 May 2023
Summarizing Indian Languages using Multilingual Transformers based Models Dhaval Taunk Vasudeva Varma VLM 29 9 0 29 Mar 2023
ANTM: An Aligned Neural Topic Model for Exploring Evolving Topics Hamed Rahimi Hubert Naacke Camélia Constantin B. Amann BDL AI4TS 36 6 0 03 Feb 2023
MORTY: Structured Summarization for Targeted Information Extraction from Scholarly Articles M. Y. Jaradeh M. Stocker Sören Auer 38 1 0 11 Dec 2022
Cracking Double-Blind Review: Authorship Attribution with Deep Learning L. Bauersfeld Angel Romero Manasi Muglikar Davide Scaramuzza 19 6 0 14 Nov 2022
Modular Domain Adaptation Junshen K. Chen Dallas Card Dan Jurafsky 17 1 0 26 Apr 2022
SciCap: Generating Captions for Scientific Figures Ting-Yao Hsu C. Lee Giles Ting-Hao 'Kenneth' Huang 27 83 0 22 Oct 2021
SciXGen: A Scientific Paper Dataset for Context-Aware Text Generation Hong Chen Hiroya Takamura Hideki Nakayama 14 18 0 20 Oct 2021
Paperswithtopic: Topic Identification from Paper Title Only Daehyun Cho C. Wallraven 26 0 0 09 Oct 2021
Studying word order through iterative shuffling Nikolay Malkin Sameera Lanka Pranav Goel Nebojsa Jojic 31 14 0 10 Sep 2021
RetGen: A Joint framework for Retrieval and Grounded Text Generation Modeling Yizhe Zhang Siqi Sun Xiang Gao Yuwei Fang Chris Brockett Michel Galley Jianfeng Gao Bill Dolan RALM 38 30 0 14 May 2021
Advances in Electron Microscopy with Deep Learning Jeffrey M. Ede 40 2 0 04 Jan 2021
An agent-based model of interdisciplinary interactions in science J. Raimbault 11 1 0 29 Jun 2020