DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing

18 November 2021

Papers citing "DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing"

50 / 664 papers shown

Title
Personalized Federated Fine-tuning for Heterogeneous Data: An Automatic Rank Learning Approach via Two-Level LoRA Jie Hao Yuman Wu Ali Payani Myungjin Lee Mingrui Liu 45 1 0 05 Mar 2025
Scaling Crowdsourced Election Monitoring: Construction and Evaluation of Classification Models for Multilingual and Cross-Domain Classification Settings Jabez Magomere Scott A. Hale 36 0 0 05 Mar 2025
Zero-Shot Complex Question-Answering on Long Scientific Documents Wanting Wang RALM 66 0 0 04 Mar 2025
Causal Tree Extraction from Medical Case Reports: A Novel Task for Experts-like Text Comprehension Sakiko Yahata Zhen Wan Fei Cheng Sadao Kurohashi Hisahiko Sato Ryozo Nagai CML 64 0 0 03 Mar 2025
Parameter-Efficient Fine-Tuning of Large Language Models via Deconvolution in Subspace Jia-Chen Zhang Yu-Jie Xiong Chun-Ming Xia Dong-Hai Zhu Xi-He Qiu 66 1 0 03 Mar 2025
Evaluating LLMs' Assessment of Mixed-Context Hallucination Through the Lens of Summarization Siya Qi Rui Cao Yulan He Zheng Yuan HILM 61 0 0 03 Mar 2025
NeoBERT: A Next-Generation BERT Lola Le Breton Quentin Fournier Mariam El Mezouar Sarath Chandar AI4TS 77 1 0 26 Feb 2025
Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time Jiazheng Li Yuxiang Zhou Junru Lu Gladys Tyen Lin Gui Cesare Aloisi Yulan He LRM 39 2 0 26 Feb 2025
Towards Sustainable Web Agents: A Plea for Transparency and Dedicated Metrics for Energy Consumption Lars Krupp Daniel Geißler P. Lukowicz Jakob Karolus LLMAG 76 0 0 25 Feb 2025
Measuring and Benchmarking Large Language Models' Capabilities to Generate Persuasive Language Amalie Brogaard Pauli Isabelle Augenstein Ira Assent 52 6 0 24 Feb 2025
Large Language Models are Powerful Electronic Health Record Encoders S. Hegselmann Georg von Arnim Tillmann Rheude Noel Kronenberg David Sontag Gerhard Hindricks R. Eils Benjamin Wild LM&MA 49 1 0 24 Feb 2025
BA-LoRA: Bias-Alleviating Low-Rank Adaptation to Mitigate Catastrophic Inheritance in Large Language Models Yupeng Chang Yi-Ju Chang Yuan Wu AI4CE ALM 95 0 0 24 Feb 2025
Universal Semantic Embeddings of Chemical Elements for Enhanced Materials Inference and Discovery Yunze Jia Yuehui Xian Yangyang Xu Pengfei Dang Xiangdong Ding Jun Sun Yumei Zhou Dezhen Xue 65 0 0 24 Feb 2025
Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking Yi-Ling Chung Aurora Cobo Pablo Serna SyDa HILM 63 0 0 24 Feb 2025
BiDeV: Bilateral Defusing Verification for Complex Claim Fact-Checking Yuxuan Liu Hongda Sun Wenya Guo Xinyan Xiao Cunli Mao Zhengtao Yu Rui Yan 71 2 0 22 Feb 2025
Machine-generated text detection prevents language model collapse George Drayson Emine Yilmaz Vasileios Lampos DeLMO 62 0 0 21 Feb 2025
Improving Consistency in Large Language Models through Chain of Guidance Harsh Raj Vipul Gupta Domenic Rosati Subhabrata Majumdar LLMAG LRM 68 3 0 21 Feb 2025
SCOPE: A Self-supervised Framework for Improving Faithfulness in Conditional Text Generation Song Duong Florian Le Bronnec Alexandre Allauzen Vincent Guigue Alberto Lumbreras Laure Soulier Patrick Gallinari HILM 50 0 0 20 Feb 2025
An Efficient Row-Based Sparse Fine-Tuning Cen-Jhih Li Aditya Bhaskara 56 0 0 17 Feb 2025
BabyLM Turns 3: Call for papers for the 2025 BabyLM workshop Lucas Charpentier Leshem Choshen Ryan Cotterell Mustafa Omer Gul Michael Y. Hu ... Candace Ross Raj Sanjay Shah Alex Warstadt Ethan Gotlieb Wilcox Adina Williams 55 2 0 15 Feb 2025
Adaptive Prompting: Ad-hoc Prompt Composition for Social Bias Detection Maximilian Spliethover Tim Knebler Fabian Fumagalli Maximilian Muschalik Barbara Hammer Eyke Hüllermeier Henning Wachsmuth 105 1 0 10 Feb 2025
Towards the Development of Balanced Synthetic Data for Correcting Grammatical Errors in Arabic: An Approach Based on Error Tagging Model and Synthetic Data Generating Model Ahlam Alrehili Areej Alhothali 81 0 0 07 Feb 2025
Behavioral Homophily in Social Media via Inverse Reinforcement Learning: A Reddit Case Study Lanqin Yuan Philipp J. Schneider Marian-Andrei Rizoiu 58 0 0 05 Feb 2025
FactCG: Enhancing Fact Checkers with Graph-Based Multi-Hop Data Deren Lei Yaxi Li Siyao Li Mengya Hu Rui Xu Ken Archer Mingyu Wang Emily Ching Alex Deng SyDa HILM LRM 73 1 0 28 Jan 2025
Extracting General-use Transformers for Low-resource Languages via Knowledge Distillation Jan Christian Blaise Cruz Alham Fikri Aji 48 1 0 22 Jan 2025
AIMA at SemEval-2024 Task 3: Simple Yet Powerful Emotion Cause Pair Analysis Alireza Ghahramani Kure Mahshid Dehghani Mohammad Mahdi Abootorabi Nona Ghazizadeh Seyed Arshan Dalili Ehsaneddin Asgari 52 1 0 19 Jan 2025
RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems Robert Friel Masha Belyi Atindriyo Sanyal 82 19 0 17 Jan 2025
GLiREL -- Generalist Model for Zero-Shot Relation Extraction Jack Boylan Chris Hokamp D. Ghalandari VLM 33 0 0 06 Jan 2025
Prune or Retrain: Optimizing the Vocabulary of Multilingual Models for Estonian Aleksei Dorkin Taido Purason Kairit Sirts 36 0 0 05 Jan 2025
Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding Yueqian Wang Xiaojun Meng Yufei Wang Jianxin Liang Qun Liu Dongyan Zhao 36 0 0 23 Dec 2024
Bag of Tricks for Multimodal AutoML with Image, Text, and Tabular Data Zhiqiang Tang Zihan Zhong Tong He Gerald Friedland 86 0 0 19 Dec 2024
Joint Co-Speech Gesture and Expressive Talking Face Generation using Diffusion with Adapters S. Hogue Chenxu Zhang Yapeng Tian Xiaohu Guo DiffM 76 0 0 18 Dec 2024
Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference Benjamin Warner Antoine Chaffin Benjamin Clavié Orion Weller Oskar Hallström ... Tom Aarsen Nathan Cooper Griffin Adams Jeremy Howard Iacopo Poli 93 79 0 18 Dec 2024
A Survey of Calibration Process for Black-Box LLMs Liangru Xie Hui Liu Jingying Zeng Xianfeng Tang Yan Han Chen Luo Jing Huang Zhen Li Suhang Wang Qi He 74 1 0 17 Dec 2024
MGM: Global Understanding of Audience Overlap Graphs for Predicting the Factuality and the Bias of News Media Muhammad Arslan Manzoor Ruihong Zeng Dilshod Azizov Preslav Nakov Shangsong Liang 79 0 0 12 Dec 2024
Word Sense Linking: Disambiguating Outside the Sandbox Andrei Stefan Bejgu Edoardo Barba Luigi Procopio Alberte Fernández-Castro Roberto Navigli 82 0 0 12 Dec 2024
HalluCana: Fixing LLM Hallucination with A Canary Lookahead Tianyi Li Erenay Dayanik Shubhi Tyagi Andrea Pierleoni HILM 80 0 0 10 Dec 2024
QAPyramid: Fine-grained Evaluation of Content Selection for Text Summarization Shiyue Zhang David Wan Arie Cattan Ayal Klein Ido Dagan Joey Tianyi Zhou 86 0 0 10 Dec 2024
KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models Fan Wang Juyong Jiang Chansung Park Sunghun Kim Jing Tang 94 1 0 08 Dec 2024
Introducing Three New Benchmark Datasets for Hierarchical Text Classification Jaco du Toit Herman Redelinghuys Marcel Dunaiski 75 0 0 28 Nov 2024
Dynamic Self-Distillation via Previous Mini-batches for Fine-tuning Small Language Models Y. Fu Yin Yu Xiaotian Han Runchao Li Xianxuan Long Haotian Yu Pan Li SyDa 67 0 0 25 Nov 2024
NormXLogit: The Head-on-Top Never Lies Sina Abbasi Mohammad Reza Modarres Mohammad Taher Pilehvar 74 0 0 25 Nov 2024
Combining Autoregressive and Autoencoder Language Models for Text Classification João Gonçalves 77 0 0 20 Nov 2024
Leveraging Large Language Models for Generating Labeled Mineral Site Record Linkage Data Jiyoon Pyo Yao-Yi Chiang 77 0 0 17 Nov 2024
VERITAS: A Unified Approach to Reliability Evaluation Rajkumar Ramamurthy Meghana Arakkal Rajeev Oliver Molenschot James Zou Nazneen Rajani HILM 55 1 0 05 Nov 2024
TabVer: Tabular Fact Verification with Natural Logic Rami Aly Andreas Vlachos LMTD 33 0 0 02 Nov 2024
Magnitude Pruning of Large Pretrained Transformer Models with a Mixture Gaussian Prior Mingxuan Zhang Y. Sun F. Liang 34 0 0 01 Nov 2024
Attention Tracker: Detecting Prompt Injection Attacks in LLMs Kuo-Han Hung Ching-Yun Ko Ambrish Rawat I-Hsin Chung Winston H. Hsu Pin-Yu Chen 49 7 0 01 Nov 2024
P-Masking: Power Law Masking Improves Multi-attribute Controlled Generation Mohamed Elgaar Hadi Amiri AI4CE 36 0 0 31 Oct 2024
GigaCheck: Detecting LLM-generated Content Irina Tolstykh Aleksandra Tsybina Sergey Yakubson Aleksandr Gordeev Vladimir Dokholyan Maksim Kuprashevich DeLMO 48 1 0 31 Oct 2024