MultiLegalPile: A 689GB Multilingual Legal Corpus

MultiLegalPile: A 689GB Multilingual Legal Corpus

3 June 2023

Matthias Sturmer

Ilias Chalkidis

Papers citing "MultiLegalPile: A 689GB Multilingual Legal Corpus"

13 / 13 papers shown

Title
MEL: Legal Spanish Language Model David Betancur Sánchez Nuria Aldama García Á. Jiménez Marta Guerrero Nieto Patricia Marsà Morales Nicolás Serrano Salas Carlos García Hernán Pablo Haya Coll Elena Montiel Ponsoda Pablo Calleja Ibáñez 53 0 0 28 Jan 2025
Natural Language Processing for the Legal Domain: A Survey of Tasks, Datasets, Models, and Challenges Farid Ariai Gianluca Demartini ELM AILaw VLM 48 4 0 25 Oct 2024
Pruning as a Domain-specific LLM Extractor Nan Zhang Yanchi Liu Xujiang Zhao Wei Cheng Runxue Bao Rui Zhang Prasenjit Mitra Haifeng Chen 26 9 0 10 May 2024
SaulLM-7B: A pioneering Large Language Model for Law Pierre Colombo T. Pires Malik Boudiaf Dominic Culver Rui Melo ... Andre F. T. Martins Fabrizio Esposito Vera Lúcia Raposo Sofia Morgado Michael Desa ELM AILaw 54 66 0 06 Mar 2024
LLM vs. Lawyers: Identifying a Subset of Summary Judgments in a Large UK Case Law Dataset Ahmed Izzidien Holli Sargeant Felix Steffek AILaw ELM 47 7 0 04 Mar 2024
LegalLens: Leveraging LLMs for Legal Violation Identification in Unstructured Text Dor Bernsohn Gil Semo Yaron Vazana Gila Hayat Ben Hagag Joel Niklaus Rohit Saha Kyryl Truskovskyi AILaw 22 17 0 06 Feb 2024
An Empirical Study on Cross-X Transfer for Legal Judgment Prediction Joel Niklaus Matthias Sturmer Ilias Chalkidis ELM AILaw 55 19 0 25 Sep 2022
Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset Peter Henderson M. Krass Lucia Zheng Neel Guha Christopher D. Manning Dan Jurafsky Daniel E. Ho AILaw ELM 141 98 0 01 Jul 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 402 12,150 0 04 Mar 2022
LexGLUE: A Benchmark Dataset for Legal Language Understanding in English Ilias Chalkidis Abhik Jana D. Hartung M. Bommarito Ion Androutsopoulos Daniel Martin Katz Nikolaos Aletras AILaw ELM 130 252 0 03 Oct 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 282 2,007 0 31 Dec 2020
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism M. Shoeybi M. Patwary Raul Puri P. LeGresley Jared Casper Bryan Catanzaro MoE 245 1,836 0 17 Sep 2019
Neural Legal Judgment Prediction in English Ilias Chalkidis Ion Androutsopoulos Nikolaos Aletras AILaw ELM 123 327 0 05 Jun 2019