Reusable Templates and Guides For Documenting Datasets and Models for Natural Language Processing and Generation: A Case Study of the HuggingFace and GEM Data and Model Cards

16 August 2021

Angelina McMillan-Major

Salomey Osei

Juan Diego Rodriguez

Pawan Sasanka Ammanamanchi

Sebastian Gehrmann

Yacine Jernite

ArXiv PDF HTML

Papers citing "Reusable Templates and Guides For Documenting Datasets and Models for Natural Language Processing and Generation: A Case Study of the HuggingFace and GEM Data and Model Cards"

28 / 28 papers shown

Title
Creative Writers' Attitudes on Writing as Training Data for Large Language Models Katy Ilonka Gero Meera Desai Carly Schnitzler Nayun Eom Jack Cushman Elena L. Glassman 35 1 0 22 Sep 2024
Improving governance outcomes through AI documentation: Bridging theory and practice Amy A. Winecoff Miranda Bogen 32 2 0 13 Sep 2024
Modeling the Sacred: Considerations when Using Religious Texts in Natural Language Processing Ben Hutchinson 100 0 0 23 Apr 2024
Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning Joan Giner-Miguelez Abel Gómez Jordi Cabot LLMAG 40 3 0 04 Apr 2024
OpenHEXAI: An Open-Source Framework for Human-Centered Evaluation of Explainable Machine Learning Jiaqi Ma Vivian Lai Yiming Zhang Chacha Chen Paul Hamilton Davor Ljubenkov Himabindu Lakkaraju Chenhao Tan ELM 24 3 0 20 Feb 2024
What's documented in AI? Systematic Analysis of 32K AI Model Cards Weixin Liang Nazneen Rajani Xinyu Yang Ezinwanne Ozoani Eric Wu Yiqun Chen D. Smith James Zou 52 15 0 07 Feb 2024
Deep Learning Model Reuse in the HuggingFace Community: Challenges, Benefit and Trends Mina Taraghi Gianolli Dorcelus A. Foundjem Florian Tambon Foutse Khomh 18 14 0 24 Jan 2024
On the Readiness of Scientific Data for a Fair and Transparent Use in Machine Learning Joan Giner-Miguelez Abel Gómez Jordi Cabot 33 0 0 18 Jan 2024
The State of Documentation Practices of Third-party Machine Learning Models and Datasets Ernesto Lang Oreamuno Rohan Faiyaz Khan A. A. Bangash Catherine Stinson Bram Adams 24 3 0 22 Dec 2023
Open Datasheets: Machine-readable Documentation for Open Datasets and Responsible AI Assessments Anthony C. Roman Jennifer Wortman Vaughan Valerie See Steph Ballard Jehu Torres Vega Caleb Robinson J. L. Ferres 42 4 0 11 Dec 2023
OpenIllumination: A Multi-Illumination Dataset for Inverse Rendering Evaluation on Real Objects Isabella Liu Ling-Hao Chen Ziyang Fu Liwen Wu Haian Jin ... Chin Ming Ryan Wong Yi Tian Xu R. Ramamoorthi Zexiang Xu Hao Su 3DV 30 18 0 14 Sep 2023
Opening up ChatGPT: Tracking openness, transparency, and accountability in instruction-tuned text generators Andreas Liesenfeld Alianda Lopez Mark Dingemanse ALM 26 86 0 08 Jul 2023
Right the docs: Characterising voice dataset documentation practices used in machine learning Kathy Reid Elizabeth T. Williams 27 2 0 19 Mar 2023
Where to start? Analyzing the potential value of intermediate models Leshem Choshen Elad Venezian Shachar Don-Yehiya Noam Slonim Yoav Katz MoMe 27 27 0 31 Oct 2022
SLING: Sino Linguistic Evaluation of Large Language Models Yixiao Song Kalpesh Krishna R. Bhatt Mohit Iyyer 24 8 0 21 Oct 2022
A domain-specific language for describing machine learning datasets Joan Giner-Miguelez Abel Gómez Jordi Cabot ALM 24 26 0 05 Jul 2022
GEMv2: Multilingual NLG Benchmarking in a Single Line of Code Sebastian Gehrmann Abhik Bhattacharjee Abinaya Mahendiran Alex Jinpeng Wang Alexandros Papangelis ... Yacine Jernite Yi Xu Yisi Sang Yixin Liu Yufang Hou 47 38 0 22 Jun 2022
Saliency Cards: A Framework to Characterize and Compare Saliency Methods Angie Boggust Harini Suresh Hendrik Strobelt John Guttag Arvindmani Satyanarayan FAtt XAI 30 8 0 07 Jun 2022
Data Governance in the Age of Large-Scale Data-Driven Language Technology Yacine Jernite Huu Nguyen Stella Biderman A. Rogers Maraim Masoud ... Jorg Frohberg Aaron Gokaslan Peter Henderson Rishi Bommasani Margaret Mitchell 26 52 0 04 May 2022
Seeing without Looking: Analysis Pipeline for Child Sexual Abuse Datasets Camila Laranjeira João Macedo Sandra Avila J. A. dos Santos 21 17 0 29 Apr 2022
Repairing the Cracked Foundation: A Survey of Obstacles in Evaluation Practices for Generated Text Sebastian Gehrmann Elizabeth Clark Thibault Sellam ELM AI4CE 71 184 0 14 Feb 2022
Accountability in an Algorithmic Society: Relationality, Responsibility, and Robustness in Machine Learning A. Feder Cooper Emanuel Moss Benjamin Laufer Helen Nissenbaum MLAU 32 85 0 10 Feb 2022
What are the best systems? New perspectives on NLP Benchmarking Pierre Colombo Nathan Noiry Ekhine Irurozki Stéphan Clémençon 27 28 0 08 Feb 2022
SynthBio: A Case Study in Human-AI Collaborative Curation of Text Datasets Ann Yuan Daphne Ippolito Vitaly Nikolaev Chris Callison-Burch Andy Coenen Sebastian Gehrmann SyDa 112 20 0 11 Nov 2021
Datasets: A Community Library for Natural Language Processing Quentin Lhoest Albert Villanova del Moral Yacine Jernite A. Thakur Patrick von Platen ... Thibault Goehringer Victor Mustar François Lagunas Alexander M. Rush Thomas Wolf 30 583 0 07 Sep 2021
Automatic Construction of Evaluation Suites for Natural Language Generation Datasets Simon Mille Kaustubh D. Dhole Saad Mahamood Laura Perez-Beltrachini Varun Gangal Mihir Kale Emiel van Miltenburg Sebastian Gehrmann ELM 47 22 0 16 Jun 2021
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics Sebastian Gehrmann Tosin Adewumi Karmanya Aggarwal Pawan Sasanka Ammanamanchi Aremu Anuoluwapo ... Nishant Subramani Wei Xu Diyi Yang Akhila Yerukola Jiawei Zhou VLM 260 285 0 02 Feb 2021
Disembodied Machine Learning: On the Illusion of Objectivity in NLP Zeerak Talat Smarika Lulz Joachim Bingel Isabelle Augenstein 96 51 0 28 Jan 2021