v1v2 (latest)

Using Similarity Measures to Select Pretraining Data for NER

1 April 2019

Papers citing "Using Similarity Measures to Select Pretraining Data for NER"

22 / 22 papers shown

Title
Konooz: Multi-domain Multi-dialect Corpus for Named Entity Recognition Nagham Hamad Mohammed Khalilia Mustafa Jarrar 24 0 0 14 Jun 2025
Scaling Laws for Downstream Task Performance in Machine Translation Berivan Isik Natalia Ponomareva Hussein Hazimeh Dimitris Paparas Sergei Vassilvitskii Sanmi Koyejo 171 23 0 24 Feb 2025
BeST -- A Novel Source Selection Metric for Transfer Learning Ashutosh Soni Peizhong Ju A. Eryilmaz Ness B. Shroff 178 0 0 19 Jan 2025
Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making O. Amujo S. Yang 88 0 0 25 Jun 2024
The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning Bingxiang He Ning Ding Cheng Qian Jia Deng Ganqu Cui ... Longtao Huang Hui Xue Huimin Chen Zhiyuan Liu Maosong Sun 80 2 0 17 Jun 2024
Selecting Subsets of Source Data for Transfer Learning with Applications in Metal Additive Manufacturing Yifan Tang M. Rahmani Dehaghani Pouyan Sajadi G. G. Wang 53 13 0 16 Jan 2024
Efficient Continual Pre-training for Building Domain Specific Large Language Models Yong Xie Karan Aggarwal Aitzaz Ahmad CLL 107 24 0 14 Nov 2023
Better with Less: A Data-Active Perspective on Pre-Training Graph Neural Networks Jiarong Xu Renhong Huang Xin Jiang Yuxuan Cao Carl Yang Chunping Wang Yang Yang AI4CE 119 15 0 02 Nov 2023
Detecting Entities in the Astrophysics Literature: A Comparison of Word-based and Span-based Entity Recognition Methods Xiang Dai Sarvnaz Karimi 65 3 0 24 Nov 2022
Win-Win Cooperation: Bundling Sequence and Span Models for Named Entity Recognition Shezheng Song Shasha Li Jie Yu Jun Ma Bin Ji 61 2 0 07 Jul 2022
AdaPrompt: Adaptive Model Training for Prompt-based NLP Yulong Chen Yang Liu Li Dong Shuohang Wang Chenguang Zhu Michael Zeng Yue Zhang VLM 102 48 0 10 Feb 2022
Improving Punctuation Restoration for Speech Transcripts via External Data Xue-Yong Fu Cheng Chen Md Tahmid Rahman Laskar TN ShashiBhushan Simon Corston-Oliver 71 13 0 01 Oct 2021
Prior Omission of Dissimilar Source Domain(s) for Cost-Effective Few-Shot Learning Zezhong Wang Hongru Wang Wai-Chung Kwan Jia Zhu Gabriel Pui Cheong Fung Kam-Fai Wong 53 1 0 11 Sep 2021
Predicting the Success of Domain Adaptation in Text Similarity Nicolai Pogrebnyakov Shohreh Shaghaghian 32 5 0 08 Jun 2021
To Share or not to Share: Predicting Sets of Sources for Model Transfer Learning Lukas Lange Jannik Strötgen Heike Adel Dietrich Klakow 82 12 0 16 Apr 2021
Domain Divergences: a Survey and Empirical Analysis Abhinav Ramesh Kashyap Devamanyu Hazarika Min-Yen Kan Roger Zimmermann 268 40 0 23 Oct 2020
Cost-effective Selection of Pretraining Data: A Case Study of Pretraining BERT on Social Media Xiang Dai Sarvnaz Karimi Ben Hachey Cécile Paris 67 35 0 02 Oct 2020
Code and Named Entity Recognition in StackOverflow Jeniya Tabassum Mounica Maddela Wei Xu Alan Ritter 146 119 0 04 May 2020
An Effective Transition-based Model for Discontinuous NER Xiang Dai Sarvnaz Karimi Ben Hachey Cécile Paris BDL MU MedIm 100 80 0 28 Apr 2020
Don't Stop Pretraining: Adapt Language Models to Domains and Tasks Suchin Gururangan Ana Marasović Swabha Swayamdipta Kyle Lo Iz Beltagy Doug Downey Noah A. Smith VLM AI4CE CLL 227 2,454 0 23 Apr 2020
Recommendation Chart of Domains for Cross-Domain Sentiment Analysis:Findings of A 20 Domain Study Akash Sheoran Diptesh Kanojia Aditya Joshi P. Bhattacharyya 33 7 0 09 Apr 2020
Improving Chemical Named Entity Recognition in Patents with Contextualized Word Embeddings Zenan Zhai Dat Quoc Nguyen S. Akhondi Camilo Thorne Christian Druckenbrodt Trevor Cohn M. Gregory Karin Verspoor 63 42 0 05 Jul 2019