Walking a Tightrope -- Evaluating Large Language Models in High-Risk
Domains

Walking a Tightrope -- Evaluating Large Language Models in High-Risk Domains

25 November 2023

Chia-Chien Hung

Carolin (Haas) Lawrence

Papers citing "Walking a Tightrope -- Evaluating Large Language Models in High-Risk Domains"

10 / 10 papers shown

Title
ScholarMate: A Mixed-Initiative Tool for Qualitative Knowledge Work and Information Sensemaking Runlong Ye Patrick Yung Kang Lee Matthew Varona Oliver Huang Carolina Nobre 79 0 0 19 Apr 2025
Large Language Models as Tax Attorneys: A Case Study in Legal Capabilities Emergence John J. Nay David Karamardian Sarah Lawsky Wenting Tao Meghana Moorthy Bhat Raghav Jain Aaron Travis Lee Jonathan H. Choi Jungo Kasai ELM AILaw 70 57 0 12 Jun 2023
shs-nlp at RadSum23: Domain-Adaptive Pre-training of Instruction-tuned LLMs for Radiology Report Impression Generation Sanjeev Kumar Karn Rikhiya Ghosh P. Kusuma Oladimeji Farri LM&MA MedIm AI4CE 46 12 0 05 Jun 2023
Capabilities of GPT-4 on Medical Challenge Problems Harsha Nori Nicholas King S. McKinney Dean Carignan Eric Horvitz LM&MA ELM AI4MH 91 793 0 20 Mar 2023
On the Limitations of Reference-Free Evaluations of Generated Text Daniel Deutsch Rotem Dror Dan Roth 75 46 0 22 Oct 2022
Towards a Unified Multi-Dimensional Evaluator for Text Generation Ming Zhong Yang Liu Da Yin Yuning Mao Yizhu Jiao Peng Liu Chenguang Zhu Heng Ji Jiawei Han ELM 64 263 0 13 Oct 2022
Improving language models by retrieving from trillions of tokens Sebastian Borgeaud A. Mensch Jordan Hoffmann Trevor Cai Eliza Rutherford ... Simon Osindero Karen Simonyan Jack W. Rae Erich Elsen Laurent Sifre KELM RALM 187 1,069 0 08 Dec 2021
Human-Centered Artificial Intelligence: Reliable, Safe & Trustworthy B. Shneiderman 56 690 0 10 Feb 2020
REALM: Retrieval-Augmented Language Model Pre-Training Kelvin Guu Kenton Lee Zora Tung Panupong Pasupat Ming-Wei Chang RALM 101 2,050 0 10 Feb 2020
BillSum: A Corpus for Automatic Summarization of US Legislation Anastassia Kornilova Vladimir Eidelman AILaw 46 155 0 01 Oct 2019