v1v2v3v4 (latest)

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

23 October 2019

Sharan Narang

Papers citing "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"

50 / 9,948 papers shown

Title
Less can be more for predicting properties with large language models Nawaf Alampara Santiago Miret Kevin Maik Jablonka 107 10 0 25 Jun 2024
Exploring compressibility of transformer based text-to-music (TTM) models Vasileios Moschopoulos Thanasis Kotsiopoulos Pablo Peso Parada Konstantinos Nikiforidis Alexandros Stergiadis Gerasimos Papakostas Md. Asif Jalal Jisi Zhang Anastasios Drosou Karthikeyan P. Saravanan 59 0 0 24 Jun 2024
Adam-mini: Use Fewer Learning Rates To Gain More Yushun Zhang Congliang Chen Ziniu Li Tian Ding Chenwei Wu Yinyu Ye Zhi-Quan Luo Ruoyu Sun 141 58 0 24 Jun 2024
WARP: On the Benefits of Weight Averaged Rewarded Policies Alexandre Ramé Johan Ferret Nino Vieillard Robert Dadashi Léonard Hussenot Pierre-Louis Cedoz Pier Giuseppe Sessa Sertan Girgin Arthur Douillard Olivier Bachem 136 23 0 24 Jun 2024
Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters Euiin Yi Taehyeon Kim Hongseok Jeung Du-Seong Chang Se-Young Yun 67 4 0 24 Jun 2024
Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation Markus Frohmann Igor Sterner Ivan Vulić Benjamin Minixhofer Markus Schedl VLM 119 20 0 24 Jun 2024
Evaluation of Language Models in the Medical Context Under Resource-Constrained Settings Andrea Posada Daniel Rueckert Felix Meissen Philip Muller LM&MA ELM 63 0 0 24 Jun 2024
QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds Ye Wang Yuting Mei Sipeng Zheng Qin Jin LRM 133 4 0 24 Jun 2024
LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training Tong Zhu Xiaoye Qu Daize Dong Jiacheng Ruan Jingqi Tong Conghui He Yu Cheng MoE ALM 118 89 0 24 Jun 2024
The Privileged Students: On the Value of Initialization in Multilingual Knowledge Distillation Haryo Akbarianto Wibowo Thamar Solorio Alham Fikri Aji 78 3 0 24 Jun 2024
Carrot and Stick: Inducing Self-Motivation with Positive & Negative Feedback Jimin Sohn Jeihee Cho Junyong Lee Songmu Heo Ji-Eun Han David R. Mortensen LRM 92 0 0 24 Jun 2024
Guardrails for avoiding harmful medical product recommendations and off-label promotion in generative AI models Daniel Lopez-Martinez MedIm 95 1 0 24 Jun 2024
Compensate Quantization Errors: Make Weights Hierarchical to Compensate Each Other Yifei Gao Jie Ou Lei Wang Yuting Xiao Zhiyuan Xiang Ruiting Dai Jun Cheng MQ 63 3 0 24 Jun 2024
Investigating the Influence of Prompt-Specific Shortcuts in AI Generated Text Detection Choonghyun Park Sungmin Cho Junyeob Kim Youna Kim Taeuk Kim Hyunsoo Cho Hwiyeol Jo Sang-goo Lee Kang Min Yoo AAML 73 1 0 24 Jun 2024
Confidence Regulation Neurons in Language Models Alessandro Stolfo Ben Wu Wes Gurnee Yonatan Belinkov Xingyi Song Mrinmaya Sachan Neel Nanda 82 20 0 24 Jun 2024
Soley: Identification and Automated Detection of Logic Vulnerabilities in Ethereum Smart Contracts Using Large Language Models M. Soud Waltteri Nuutinen Grischa Liebel AAML 76 4 0 24 Jun 2024
Compressing Search with Language Models Thomas Mulc Jennifer L. Steele 135 2 0 24 Jun 2024
PlagBench: Exploring the Duality of Large Language Models in Plagiarism Generation and Detection Jooyoung Lee Toshini Agrawal Adaku Uchendu Thai V. Le Jinghui Chen Dongwon Lee 188 1 0 24 Jun 2024
FS-RAG: A Frame Semantics Based Approach for Improved Factual Accuracy in Large Language Models Harish Tayyar Madabushi 48 0 0 23 Jun 2024
Towards Natural Language-Driven Assembly Using Foundation Models O. Joglekar Tal Lancewicki Shir Kozlovsky Vladimir Tchuiev Zohar Feldman Dotan Di Castro LM&Ro 92 0 0 23 Jun 2024
FastMem: Fast Memorization of Prompt Improves Context Awareness of Large Language Models Junyi Zhu Shuochen Liu Yu Yu Bo Tang Yibo Yan Zhiyu Li Feiyu Xiong Tong Xu Matthew B. Blaschko 100 5 0 23 Jun 2024
Serial Position Effects of Large Language Models Xiaobo Guo Soroush Vosoughi 81 8 0 23 Jun 2024
Efficient Evolutionary Search Over Chemical Space with Large Language Models Haorui Wang Marta Skreta C. Ser Wenhao Gao Lingkai Kong ... Yanqiao Zhu Yuanqi Du Alán Aspuru-Guzik Kirill Neklyudov Chao Zhang 150 20 0 23 Jun 2024
ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods Roy Xie Junlin Wang Ruomin Huang Minxing Zhang Rong Ge Jian Pei Neil Zhenqiang Gong Bhuwan Dhingra MIALM 134 17 0 23 Jun 2024
Blind Baselines Beat Membership Inference Attacks for Foundation Models Debeshee Das Jie Zhang Florian Tramèr MIALM 182 39 1 23 Jun 2024
Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration Zhongzhi Yu Zheng Wang Yonggan Fu Huihong Shi Khalid Shaikh Yingyan Celine Lin 118 25 0 22 Jun 2024
Real-time Speech Summarization for Medical Conversations Khai-Nguyen Nguyen Khai Le-Duc Long Vo-Dang Truong-Son Hy MedIm 176 2 0 22 Jun 2024
TinyStyler: Efficient Few-Shot Text Style Transfer with Authorship Embeddings Zachary Horvitz Ajay Patel Kanishk Singh Chris Callison-Burch Kathleen McKeown Zhou Yu 90 5 0 21 Jun 2024
DEM: Distribution Edited Model for Training with Mixed Data Distributions Dhananjay Ram Aditya Rawal Momchil Hardalov Nikolaos Pappas Sheng Zha MoMe 138 2 0 21 Jun 2024
Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning Brandon Huang Chancharik Mitra Assaf Arbelle Leonid Karlinsky Trevor Darrell Roei Herzig 101 21 0 21 Jun 2024
Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics Weijia Zhang Mohammad Aliannejadi Yifei Yuan Jiahuan Pei Jia-Hong Huang Evangelos Kanoulas HILM 88 13 0 21 Jun 2024
Évaluation des capacités de réponse de larges modèles de langage (LLM) pour des questions d'historiens M. Chartier Nabil Dakkoune G. Bourgeois Stéphane Jean KELM ELM 38 1 0 21 Jun 2024
AgriLLM: Harnessing Transformers for Farmer Queries Krish Didwania Pratinav Seth Aditya Kasliwal Amit Agarwal 73 0 0 21 Jun 2024
Talking the Talk Does Not Entail Walking the Walk: On the Limits of Large Language Models in Lexical Entailment Recognition C. M. Greco Lucio La Cava Andrea Tagarelli 71 1 0 21 Jun 2024
Rethinking Pruning Large Language Models: Benefits and Pitfalls of Reconstruction Error Minimization Sungbin Shin Wonpyo Park Jaeho Lee Namhoon Lee 75 2 0 21 Jun 2024
Leveraging Passage Embeddings for Efficient Listwise Reranking with Large Language Models Qi Liu Bo Wang Nan Wang Jiaxin Mao RALM 148 4 0 21 Jun 2024
TemPrompt: Multi-Task Prompt Learning for Temporal Relation Extraction in RAG-based Crowdsourcing Systems Jing Yang Yu Zhao Linyao Yang Xiao Wang Long Chen Fei-Yue Wang LRM 52 2 0 21 Jun 2024
Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods Kathleen C. Fraser Hillary Dawkins S. Kiritchenko DeLMO 154 13 0 21 Jun 2024
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph Roman Vashurin Ekaterina Fadeeva Artem Vazhentsev Akim Tsvigun Daniil Vasilev ... Timothy Baldwin Timothy Baldwin Preslav Nakov Maxim Panov Artem Shelmanov HILM 184 28 0 21 Jun 2024
A Learn-Then-Reason Model Towards Generalization in Knowledge Base Question Answering Lingxi Zhang Jing Zhang Yanling Wang Cuiping Li Hong Chen 56 0 0 20 Jun 2024
Speech Prefix-Tuning with RNNT Loss for Improving LLM Predictions M. Baskar Andrew Rosenberg Bhuvana Ramabhadran Neeraj Gaur Zhong Meng 60 3 0 20 Jun 2024
PostMark: A Robust Blackbox Watermark for Large Language Models Yapei Chang Kalpesh Krishna Amir Houmansadr John Wieting Mohit Iyyer 89 9 0 20 Jun 2024
Instruction Pre-Training: Language Models are Supervised Multitask Learners Daixuan Cheng Yuxian Gu Shaohan Huang Junyu Bi Minlie Huang Furu Wei SyDa 137 27 0 20 Jun 2024
Data-Centric AI in the Age of Large Language Models Xinyi Xu Zhaoxuan Wu Rui Qiao Arun Verma Yao Shu ... Xiaoqiang Lin Wenyang Hu Zhongxiang Dai Pang Wei Koh Bryan Kian Hsiang Low ALM 135 3 0 20 Jun 2024
Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue Huifang Du Shuqin Li Minghao Wu Xuejing Feng Yuan-Fang Li Haofen Wang OffRL 113 2 0 20 Jun 2024
CollaFuse: Collaborative Diffusion Models Simeon Allmendinger Domenique Zipperling Lukas Struppek Niklas Kühl 85 2 0 20 Jun 2024
A Data-Driven Guided Decoding Mechanism for Diagnostic Captioning Panagiotis Kaliosis John Pavlopoulos Foivos Charalampakos Georgios Moschovis Ion Androutsopoulos MedIm 71 2 0 20 Jun 2024
Information Guided Regularization for Fine-tuning Language Models Mandar Sharma Nikhil Muralidhar Shengzhe Xu Raquib Bin Yousuf Naren Ramakrishnan 120 0 0 20 Jun 2024
AspirinSum: an Aspect-based utility-preserved de-identification Summarization framework Ya-Lun Li 82 0 0 20 Jun 2024
Communication-Efficient Adaptive Batch Size Strategies for Distributed Local Gradient Methods Tim Tsz-Kit Lau Weijian Li Chenwei Xu Han Liu Mladen Kolar 92 1 0 20 Jun 2024