Generate, Annotate, and Learn: NLP with Synthetic Text

11 June 2021

Papers citing "Generate, Annotate, and Learn: NLP with Synthetic Text"

35 / 35 papers shown

Title
Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content Sai Kartheek Reddy Kasu Shankar Biradar Sunil Saumya 65 0 0 20 Mar 2025
Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data Haoxin Li Boyang Li CoGe 73 0 0 03 Mar 2025
Synthetic vs. Gold: The Role of LLM-Generated Labels and Data in Cyberbullying Detection Arefeh Kazemi Sri Balaaji Natarajan Kalaivendan Joachim Wagner Hamza Qadeer Brian Davis 60 1 0 21 Feb 2025
The Unmet Promise of Synthetic Training Images: Using Retrieved Real Images Performs Better Scott Geng Cheng-Yu Hsieh Vivek Ramanujan Matthew Wallingford Chun-Liang Li Pang Wei Koh Ranjay Krishna DiffM 68 6 0 03 Jan 2025
NewTerm: Benchmarking Real-Time New Terms for Large Language Models with Annual Updates Hexuan Deng Wenxiang Jiao Xuebo Liu Min Zhang Zhaopeng Tu 40 3 0 28 Oct 2024
From Test-Taking to Test-Making: Examining LLM Authoring of Commonsense Assessment Items Melissa Roemmele Andrew S. Gordon 29 1 0 18 Oct 2024
A Persuasion-Based Prompt Learning Approach to Improve Smishing Detection through Data Augmentation Ho Sung Shim Hyoungjun Park Kyuhan Lee Jang-Sun Park Seonhye Kang AAML 28 0 0 18 Oct 2024
Boosting Zero-Shot Crosslingual Performance using LLM-Based Augmentations with Effective Data Selection Barah Fazili Ashish Agrawal P. Jyothi 40 1 0 15 Jul 2024
AdaCQR: Enhancing Query Reformulation for Conversational Search via Sparse and Dense Retrieval Alignment Yilong Lai Jialong Wu Congzhi Zhang Haowen Sun Deyu Zhou 49 1 0 02 Jul 2024
Text Grafting: Near-Distribution Weak Supervision for Minority Classes in Text Classification Letian Peng Yi Gu Chengyu Dong Zihan Wang Jingbo Shang 32 0 0 17 Jun 2024
Evaluating the Effectiveness of Data Augmentation for Emotion Classification in Low-Resource Settings Aashish Arora Elsbeth Turcan 34 1 0 07 Jun 2024
mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans Yusuke Sakai Hidetaka Kamigaito Taro Watanabe LRM 43 2 0 06 Jun 2024
$$\textit{Trans-LoRA}$: towards data-free Transferable Parameter Efficient Finetuning$ $\textit{Trans-LoRA}$ : towards data-free Transferable Parameter Efficient Finetuning Runqian Wang Soumya Ghosh David D. Cox Diego Antognini Aude Oliva Rogerio Feris Leonid Karlinsky 34 1 0 27 May 2024
LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues Joe Stacey Jianpeng Cheng John Torr Tristan Guigue Joris Driesen Alexandru Coca Mark Gaynor Anders Johannsen 38 3 0 01 Mar 2024
Dependency Annotation of Ottoman Turkish with Multilingual BERT S. Özates Tarık Tıraş Efe Genç Esma F. Bilgin Tasdemir 26 1 0 22 Feb 2024
A Survey on Knowledge Distillation of Large Language Models Xiaohan Xu Ming Li Chongyang Tao Tao Shen Reynold Cheng Jinyang Li Can Xu Dacheng Tao Dinesh Manocha KELM VLM 44 101 0 20 Feb 2024
Scaling laws for learning with real and surrogate data Ayush Jain Andrea Montanari Eren Sasoglu 35 11 0 06 Feb 2024
Socially Aware Synthetic Data Generation for Suicidal Ideation Detection Using Large Language Models Hamideh Ghanadian I. Nejadgholi Hussein Al Osman SyDa 40 18 0 25 Jan 2024
Scaling Laws of Synthetic Images for Model Training ... for Now Lijie Fan Kaifeng Chen Dilip Krishnan Dina Katabi Phillip Isola Yonglong Tian CLIP VLM 41 61 0 07 Dec 2023
Statistical Depth for Ranking and Characterizing Transformer-Based Text Embeddings Parker Seegmiller S. Preum 31 3 0 23 Oct 2023
ViPE: Visualise Pretty-much Everything Hassan Shahmohammadi Adhiraj Ghosh Hendrik P. A. Lensch DiffM 25 1 0 16 Oct 2023
Can LLMs Augment Low-Resource Reading Comprehension Datasets? Opportunities and Challenges Vinay Samuel Houda Aynaou Arijit Ghosh Chowdhury Karthik Venkat Ramanan Aman Chadha SyDa 33 7 0 21 Sep 2023
Contrasting Linguistic Patterns in Human and LLM-Generated Text Alberto Muñoz-Ortiz Carlos Gómez-Rodríguez David Vilares DeLMO 24 32 0 17 Aug 2023
Steering Language Generation: Harnessing Contrastive Expert Guidance and Negative Prompting for Coherent and Diverse Synthetic Data Generation Charles OÑeill Y. Ting 丁 I. Ciucă Jack Miller Thang Bui SyDa 37 1 0 15 Aug 2023
StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners Yonglong Tian Lijie Fan Phillip Isola Huiwen Chang Dilip Krishnan VLM DiffM 38 141 0 01 Jun 2023
Synthetically generated text for supervised text analysis Andrew Halterman DeLMO 32 6 0 28 Mar 2023
UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers Jon Saad-Falcon Omar Khattab Keshav Santhanam Radu Florian M. Franz Salim Roukos Avirup Sil Md Arafat Sultan Christopher Potts 24 41 0 01 Mar 2023
DMOps: Data Management Operation and Recipes E. Choi Chanjun Park 29 7 0 02 Jan 2023
Transformers Go for the LOLs: Generating (Humourous) Titles from Scientific Abstracts End-to-End Yanran Chen Steffen Eger 26 16 0 20 Dec 2022
Evaluation of Automated Speech Recognition Systems for Conversational Speech: A Linguistic Perspective H. Pasandi Haniyeh B. Pasandi 31 1 0 05 Nov 2022
STraTA: Self-Training with Task Augmentation for Better Few-shot Learning Tu Vu Minh-Thang Luong Quoc V. Le Grady Simon Mohit Iyyer 128 60 0 13 Sep 2021
Generalised Unsupervised Domain Adaptation of Neural Machine Translation with Cross-Lingual Data Selection Thuy-Trang Vu Xuanli He D.Q. Phung Gholamreza Haffari 40 10 0 09 Sep 2021
Data Augmentation using Pre-trained Transformer Models Varun Kumar Ashutosh Choudhary Eunah Cho VLM 216 347 0 04 Mar 2020
BERT-of-Theseus: Compressing BERT by Progressive Module Replacing Canwen Xu Wangchunshu Zhou Tao Ge Furu Wei Ming Zhou 221 197 0 07 Feb 2020
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,959 0 20 Apr 2018