v1v2v3v4v5 (latest)

Trankit: A Light-Weight Transformer-based Toolkit for Multilingual Natural Language Processing

9 January 2021

Minh Nguyen

Viet Dac Lai

Amir Pouran Ben Veyseh

Thien Huu Nguyen

ArXiv (abs)PDF HTML Github (754★)

Papers citing "Trankit: A Light-Weight Transformer-based Toolkit for Multilingual Natural Language Processing"

50 / 57 papers shown

Title
AraReasoner: Evaluating Reasoning-Based LLMs for Arabic NLP Ahmed Abul Hasanaath Aisha Alansari Ahmed Ashraf Chafik Salmane Hamzah Luqman Saad Ezzini ReLM LRM 30 0 0 10 Jun 2025
Counting trees: A treebank-driven exploration of syntactic variation in speech and writing across languages Kaja Dobrovoljc 15 0 0 28 May 2025
Nested Named-Entity Recognition on Vietnamese COVID-19: Dataset and Experiments Ngoc C.Lê Hai-Chung Nguyen-Phung Thu-Huong Pham Thi Hue Vu Phuong-Thao Nguyen Thi Thu-Thuy Tran Hong-Nhung Le Thi Thuy-Duong Nguyen-Thi Thanh-Huy Nguyen 73 1 0 21 Apr 2025
Second language Korean Universal Dependency treebank v1.2: Focus on data augmentation and annotation scheme refinement Hakyung Sung Gyu-Ho Shin 89 1 0 18 Mar 2025
Leveraging Customer Feedback for Multi-modal Insight Extraction Sandeep Sricharan Mukku Abinesh Kanagarajan Pushpendu Ghosh Chetan Aggarwal 29 0 0 13 Oct 2024
Assessing the Role of Lexical Semantics in Cross-lingual Transfer through Controlled Manipulations Roy Ilani Taelin Karidi Omri Abend 49 0 0 14 Aug 2024
Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models Minh Nguyen Franck Dernoncourt Seunghyun Yoon Hanieh Deilamsalehy Hao Tan Ryan Rossi Quan Tran Trung Bui Thien Huu Nguyen 63 0 0 16 Jul 2024
Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations Matthias Lindemann Alexander Koller Ivan Titov AI4CE NAI 73 4 0 05 Jul 2024
eFontes. Part of Speech Tagging and Lemmatization of Medieval Latin Texts.A Cross-Genre Survey Krzysztof Nowak Jedrzej Ziebura Krzysztof Wróbel Aleksander Smywiński-Pohl 49 0 0 29 Jun 2024
WarCov -- Large multilabel and multimodal dataset from social platform Weronika Borek-Marciniec P. Zyblewski Jakub Klikowski Pawel Ksieniewicz 86 0 0 10 Jun 2024
The Knesset Corpus: An Annotated Corpus of Hebrew Parliamentary Proceedings Gili Goldin Nick Howell Noam Ordan Ella Rabinovich School of Materials Science 57 1 0 28 May 2024
A Closer Look at Claim Decomposition Miriam Wanner Seth Ebner Zhengping Jiang Mark Dredze Benjamin Van Durme 96 24 0 18 Mar 2024
MRL Parsing Without Tears: The Case of Hebrew Shaltiel Shmidman Avi Shmidman Moshe Koppel Reut Tsarfaty 67 6 0 11 Mar 2024
NLPre: a revised approach towards language-centric benchmarking of Natural Language Preprocessing systems Martyna Wia̧cek Piotr Rybak Lukasz Pszenny Alina Wróblewska 60 1 0 07 Mar 2024
Zero-Shot Cross-Lingual Document-Level Event Causality Identification with Heterogeneous Graph Contrastive Transfer Learning Zhitao He Pengfei Cao Zhuoran Jin Yubo Chen Kang Liu Qing Cui Mengshu Sun Jun Zhao 82 3 0 05 Mar 2024
RFBES at SemEval-2024 Task 8: Investigating Syntactic and Semantic Features for Distinguishing AI-Generated and Human-Written Texts Mohammad Heydari Rad Farhan Farsi Shayan Bali Romina Etezadi M. Shamsfard DeLMO 62 2 0 19 Feb 2024
Fine Tuning Named Entity Extraction Models for the Fantasy Domain Aravinth Sivaganeshan Nisansa de Silva 63 0 0 16 Feb 2024
A Truly Joint Neural Architecture for Segmentation and Parsing Danit Yshaayahu Levi Reut Tsarfaty 130 5 0 04 Feb 2024
Beyond Image-Text Matching: Verb Understanding in Multimodal Transformers Using Guided Masking Ivana Beňová Jana Kosecka Michal Gregor Martin Tamajka Marcel Veselý Marian Simko 61 1 0 29 Jan 2024
MaLA-500: Massive Language Adaptation of Large Language Models Peiqin Lin Shaoxiong Ji Jörg Tiedemann André F. T. Martins Hinrich Schütze ELM 114 18 0 24 Jan 2024
Women Are Beautiful, Men Are Leaders: Gender Stereotypes in Machine Translation and Language Modeling Matúš Pikuliak Andrea Hrckova Stefan Oresko Marian Simko 99 9 0 30 Nov 2023
Explicit Morphological Knowledge Improves Pre-training of Language Models for Hebrew Eylon Gueta Omer Goldman Reut Tsarfaty 42 2 0 01 Nov 2023
Code-Switching with Word Senses for Pretraining in Neural Machine Translation Vivek Iyer Edoardo Barba Alexandra Birch Jeff Z. Pan Roberto Navigli 98 3 0 21 Oct 2023
Improving Cross-Lingual Transfer through Subtree-Aware Word Reordering Ofir Arviv Dmitry Nikolaev Taelin Karidi Omri Abend LRM 68 3 0 20 Oct 2023
DepNeCTI: Dependency-based Nested Compound Type Identification for Sanskrit Jivnesh Sandhan Yaswanth Narsupalli Sreevatsa Muppirala Sriram Krishnan Pavankumar Satuluri Amba P. Kulkarni Pawan Goyal 63 1 0 14 Oct 2023
Comparative Analysis of Named Entity Recognition in the Dungeons and Dragons Domain Gayashan Weerasundara Nisansa de Silva 38 2 0 29 Sep 2023
The ParlaSent Multilingual Training Dataset for Sentiment Identification in Parliamentary Proceedings Michal Mochtak Peter Rupnik Nikola Ljubesic AILaw 54 4 0 18 Sep 2023
Advancing Hungarian Text Processing with HuSpaCy: Efficient and Accurate NLP Pipelines György Orosz GergHo Szabó Péter Berkecz Zsolt Szántó Richárd Farkas VLM 31 3 0 24 Aug 2023
CLASSLA-Stanza: The Next Step for Linguistic Processing of South Slavic Languages Luka Tercon Nikola Ljubesic AI4TS 42 13 0 08 Aug 2023
Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback Viet Dac Lai Chien Van Nguyen Nghia Trung Ngo Thuat Nguyen Franck Dernoncourt Ryan Rossi Thien Huu Nguyen ALM 133 150 0 29 Jul 2023
GENTLE: A Genre-Diverse Multilayer Challenge Set for English NLP and Linguistic Evaluation Tatsuya Aoyama Shabnam Behzad Luke Gessler Lauren Levine Jessica Lin Yang Liu Siyao Peng Yilun Zhu Amir Zeldes AILaw 67 13 0 03 Jun 2023
Conjunct Resolution in the Face of Verbal Omissions Royi Rassin Yoav Goldberg Reut Tsarfaty CVBM 120 0 0 26 May 2023
The Perfect Victim: Computational Analysis of Judicial Attitudes towards Victims of Sexual Violence Eliya Habba Renana Keydar Dan Bareket Gabriel Stanovsky AILaw 68 3 0 09 May 2023
ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning Viet Dac Lai Nghia Trung Ngo Amir Pouran Ben Veyseh Hieu Man Franck Dernoncourt Trung Bui Thien Huu Nguyen ELM LM&MA 69 290 0 12 Apr 2023
WikiGoldSK: Annotated Dataset, Baselines and Few-Shot Learning Experiments for Slovak Named Entity Recognition Dávid Suba Marek Suppa Jozef Kubík Endre Hamerlik Martin Takáč 54 0 0 08 Apr 2023
Integrating Image Features with Convolutional Sequence-to-sequence Network for Multilingual Visual Question Answering T. M. Thai Son T. Luu 86 0 0 22 Mar 2023
Revealing Weaknesses of Vietnamese Language Models Through Unanswerable Questions in Machine Reading Comprehension Son Quoc Tran Phong Nguyen-Thuan Do Kiet Van Nguyen Ngan Luu-Thuy Nguyen 65 0 0 16 Mar 2023
HeartBEiT: Vision Transformer for Electrocardiogram Data Improves Diagnostic Performance at Low Sample Sizes A. Vaid Joy Jiang Ashwin S. Sawant S. Lerakis E. Argulian ... Alexander W. Charney H. Greenspan Benjamin S. Glicksberg T. University Israel. Division of Nephrology MedIm 59 4 0 13 Dec 2022
MINION: a Large-Scale and Diverse Dataset for Multilingual Event Detection Amir Pouran Ben Veyseh Minh Le Nguyen Franck Dernoncourt Thien Huu Nguyen 82 15 0 11 Nov 2022
MEE: A Novel Multilingual Event Extraction Dataset Amir Pouran Ben Veyseh J. Ebrahimi Franck Dernoncourt Thien Huu Nguyen 96 27 0 11 Nov 2022
A Second Wave of UD Hebrew Treebanking and Cross-Domain Parsing Amir Zeldes Nick Howell Noam Ordan Y. B. Moshe 43 9 0 14 Oct 2022
A Novel Multi-Task Learning Approach for Context-Sensitive Compound Type Identification in Sanskrit Jivnesh Sandhan Ashish Gupta Hrishikesh Terdalkar Tushar Sandhan S. Samanta Laxmidhar Behera Pawan Goyal 63 4 0 22 Aug 2022
Probing Simile Knowledge from Pre-trained Language Models Weijie Chen Yongzhu Chang Rongsheng Zhang Jiashu Pu Guandan Chen Le Zhang Yadong Xi Yijiang Chen Chang Su 78 11 0 27 Apr 2022
Morphological Processing of Low-Resource Languages: Where We Are and What's Next Adam Wiemerslage Miikka Silfverberg Changbing Yang Arya D. McCarthy Garrett Nicolai Eliana Colunga Katharina Kann 86 13 0 16 Mar 2022
Evaluating Persian Tokenizers Danial Kamali Behrooz Janfada Mohammad Ebrahim Shenasa B. Minaei-Bidgoli 28 1 0 22 Feb 2022
FAMIE: A Fast Active Learning Framework for Multilingual Information Extraction Minh Le Nguyen Nghia Trung Ngo Bonan Min Thien Huu Nguyen 73 11 0 16 Feb 2022
Systematic Investigation of Strategies Tailored for Low-Resource Settings for Low-Resource Dependency Parsing Jivnesh Sandhan Laxmidhar Behera Pawan Goyal 65 1 0 27 Jan 2022
Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey Bonan Min Hayley L Ross Elior Sulem Amir Pouran Ben Veyseh Thien Huu Nguyen Oscar Sainz Eneko Agirre Ilana Heinz Dan Roth LM&MA VLM AI4CE 189 1,094 0 01 Nov 2021
On the Relation between Syntactic Divergence and Zero-Shot Performance Ofir Arviv Dmitry Nikolaev Taelin Karidi Omri Abend 54 4 0 09 Oct 2021
SlovakBERT: Slovak Masked Language Model Matúš Pikuliak Stefan Grivalsky Martin Konopka Miroslav Blšták Martin Tamajka Viktor Bachratý Marian Simko Pavol Balázik Michal Trnka Filip Uhlárik 66 27 0 30 Sep 2021