CamemBERT: a Tasty French Language Model

10 November 2019

Louis Martin

Eric Villemonte de la Clergerie

Djamé Seddah

Benoît Sagot

ArXiv PDF HTML

Papers citing "CamemBERT: a Tasty French Language Model"

50 / 361 papers shown

Title
Generating Intelligible Plumitifs Descriptions: Use Case Application with Ethical Considerations David Beauchemin Nicolas Garneau Eve Gaumond Pierre-Luc Déziel Richard Khoury Luc Lamontagne AILaw 25 9 0 24 Nov 2020
Large Scale Multimodal Classification Using an Ensemble of Transformer Models and Co-Attention Varnith Chordia B. Vijaykumar 16 7 0 23 Nov 2020
On the use of Self-supervised Pre-trained Acoustic and Linguistic Features for Continuous Speech Emotion Recognition Manon Macary Marie Tahon Yannick Esteve Anthony Rousseau SSL 16 54 0 18 Nov 2020
When Do You Need Billions of Words of Pretraining Data? Yian Zhang Alex Warstadt Haau-Sing Li Samuel R. Bowman 29 136 0 10 Nov 2020
EstBERT: A Pretrained Language-Specific BERT for Estonian Hasan Tanvir Claudia Kittask Sandra Eiche Kairit Sirts 20 36 0 09 Nov 2020
Indic-Transformers: An Analysis of Transformer Language Models for Indian Languages Kushal Kumar Jain Adwait Deshpande Kumar Shridhar F. Laumann Ayushman Dash 51 51 0 04 Nov 2020
Neural Coreference Resolution for Arabic Abdulrahman Aloraini Juntao Yu Massimo Poesio 19 14 0 31 Oct 2020
WNUT-2020 Task 1 Overview: Extracting Entities and Relations from Wet Lab Protocols Jeniya Tabassum Sydney Lee Wei-ping Xu Alan Ritter 18 18 0 27 Oct 2020
When Being Unseen from mBERT is just the Beginning: Handling New Languages With Multilingual Language Models Benjamin Muller Antonis Anastasopoulos Benoît Sagot Djamé Seddah LRM 136 165 0 24 Oct 2020
Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question Answering Arij Riabi Thomas Scialom Rachel Keraron Benoît Sagot Djamé Seddah Jacopo Staiano 142 52 0 23 Oct 2020
Topic Modeling with Contextualized Word Representation Clusters Laure Thompson David M. Mimno 115 83 0 23 Oct 2020
BARThez: a Skilled Pretrained French Sequence-to-Sequence Model Moussa Kamal Eddine A. Tixier Michalis Vazirgiannis BDL 103 64 0 23 Oct 2020
mT5: A massively multilingual pre-trained text-to-text transformer Linting Xue Noah Constant Adam Roberts Mihir Kale Rami Al-Rfou Aditya Siddhant Aditya Barua Colin Raffel 60 2,445 0 22 Oct 2020
Towards Fully Bilingual Deep Language Modeling Li-Hsin Chang S. Pyysalo Jenna Kanerva Filip Ginter 34 3 0 22 Oct 2020
German's Next Language Model Branden Chan Stefan Schweter Timo Möller 27 264 0 21 Oct 2020
XL-WiC: A Multilingual Benchmark for Evaluating Semantic Contextualization Alessandro Raganato Tommaso Pasini Jose Camacho-Collados Mohammad Taher Pilehvar 19 60 0 13 Oct 2020
X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained Language Models Zhengbao Jiang Antonios Anastasopoulos Jun Araki Haibo Ding Graham Neubig HILM KELM 21 136 0 13 Oct 2020
EFSG: Evolutionary Fooling Sentences Generator Marco Di Giovanni Marco Brambilla AAML 35 2 0 12 Oct 2020
On the importance of pre-training data volume for compact language models Vincent Micheli Martin d'Hoffschmidt Franccois Fleuret 17 41 0 08 Oct 2020
Improving Sentiment Analysis over non-English Tweets using Multilingual Transformers and Automatic Translation for Data-Augmentation Valentin Barrière A. Balahur 11 36 0 07 Oct 2020
VCDM: Leveraging Variational Bi-encoding and Deep Contextualized Word Representations for Improved Definition Modeling Machel Reid Edison Marrese-Taylor Y. Matsuo 18 17 0 07 Oct 2020
Guiding Attention for Self-Supervised Learning with Transformers Ameet Deshpande Karthik R. Narasimhan 31 21 0 06 Oct 2020
Cross-Lingual Transfer Learning for Complex Word Identification George-Eduard Zaharia Dumitru-Clementin Cercel M. Dascalu 30 13 0 02 Oct 2020
AnchiBERT: A Pre-Trained Model for Ancient ChineseLanguage Understanding and Generation Huishuang Tian Kexin Yang Dayiheng Liu Jiancheng Lv 33 31 0 24 Sep 2020
Latin BERT: A Contextual Language Model for Classical Philology David Bamman P. Burns 19 78 0 21 Sep 2020
More Embeddings, Better Sequence Labelers? Xinyu Wang Yong-jia Jiang Nguyen Bach Tao Wang Zhongqiang Huang Fei Huang Kewei Tu 26 10 0 17 Sep 2020
The ADAPT Enhanced Dependency Parser at the IWPT 2020 Shared Task James Barry Joachim Wagner Jennifer Foster 21 4 0 03 Sep 2020
GREEK-BERT: The Greeks visiting Sesame Street John Koutsikakis Ilias Chalkidis Prodromos Malakasiotis Ion Androutsopoulos 16 89 0 27 Aug 2020
PTT5: Pretraining and validating the T5 model on Brazilian Portuguese data Diedre Carmo Marcos Piau Israel Campiotti Rodrigo Nogueira R. Lotufo LM&MA 14 52 0 20 Aug 2020
Adding Recurrence to Pretrained Transformers for Improved Efficiency and Context Size Davis Yoshida Allyson Ettinger Kevin Gimpel AI4CE 13 7 0 16 Aug 2020
KR-BERT: A Small-Scale Korean-Specific Language Model Sangah Lee Hansol Jang Yunmee Baik Suzi Park Hyopil Shin 24 51 0 10 Aug 2020
The Unreasonable Effectiveness of Machine Learning in Moldavian versus Romanian Dialect Identification Mihaela Guaman Radu Tudor Ionescu 17 13 0 30 Jul 2020
Text-based classification of interviews for mental health -- juxtaposing the state of the art J. Wouts 17 1 0 29 Jul 2020
Big Bird: Transformers for Longer Sequences Manzil Zaheer Guru Guruganesh Kumar Avinava Dubey Joshua Ainslie Chris Alberti ... Philip Pham Anirudh Ravula Qifan Wang Li Yang Amr Ahmed VLM 288 2,017 0 28 Jul 2020
ISA: An Intelligent Shopping Assistant T. Lai Trung Bui Nedim Lipka 6 4 0 07 Jul 2020
Playing with Words at the National Library of Sweden -- Making a Swedish BERT Martin Malmsten Love Borjeson Chris Haffenden 19 124 0 03 Jul 2020
Project PIAF: Building a Native French Question-Answering Dataset Rachel Keraron Guillaume Lancrenon M. Bras Frédéric Allary Gilles Moyse Thomas Scialom Edmundo-Pavel Soriano-Morales Jacopo Staiano 6 20 0 02 Jul 2020
FinEst BERT and CroSloEngual BERT: less is more in multilingual models Matej Ulvcar Marko Robnik-Šikonja 19 48 0 14 Jun 2020
A Monolingual Approach to Contextualized Word Embeddings for Mid-Resource Languages Pedro Ortiz Suarez Laurent Romary Benoît Sagot 25 227 0 11 Jun 2020
Pre-training Polish Transformer-based Language Models at Scale Slawomir Dadas Michal Perelkiewicz Rafal Poswiata 27 38 0 07 Jun 2020
WikiBERT models: deep transfer learning for many languages S. Pyysalo Jenna Kanerva Antti Virtanen Filip Ginter KELM 33 38 0 02 Jun 2020
Establishing a New State-of-the-Art for French Named Entity Recognition Pedro Ortiz Suarez Yoann Dupont Benjamin Muller Laurent Romary Benoît Sagot 6 17 0 27 May 2020
Corpus and Models for Lemmatisation and POS-tagging of Classical French Theatre Jean-Baptiste Camps Simon Gabay Paul Fièvre Thibault Clérice F. Cafiero 22 6 0 15 May 2020
An Evaluation of Recent Neural Sequence Tagging Models in Turkish Named Entity Recognition Gizem Aras Didem Makaroglu Seniz Demir Altan Cakir 6 30 0 14 May 2020
KLEJ: Comprehensive Benchmark for Polish Language Understanding Piotr Rybak Robert Mroczkowski Janusz Tracz Ireneusz Gawlik ELM 27 82 0 01 May 2020
Can Multilingual Language Models Transfer to an Unseen Dialect? A Case Study on North African Arabizi Benjamin Muller Benoît Sagot Djamé Seddah 22 20 0 01 May 2020
An Empirical Study of Pre-trained Transformers for Arabic Information Extraction Wuwei Lan Yang Chen Wei-ping Xu Alan Ritter 22 4 0 30 Apr 2020
What's so special about BERT's layers? A closer look at the NLP pipeline in monolingual and multilingual models Wietse de Vries Andreas van Cranenburgh Malvina Nissim MILM SSeg MoE 22 64 0 14 Apr 2020
Multilingual Chart-based Constituency Parse Extraction from Pre-trained Language Models Taeuk Kim Bowen Li Sang-goo Lee 65 6 0 08 Apr 2020
A Systematic Analysis of Morphological Content in BERT Models for Multiple Languages Daniel Edmiston 25 32 0 06 Apr 2020