v1v2v3v4 (latest)

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

23 October 2019

Sharan Narang

Papers citing "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"

50 / 9,870 papers shown

Title
An Evaluation of LLMs for Detecting Harmful Computing Terms Joshua Jacas Hana Winchester Alicia Boyd Brittany Johnson 102 0 0 12 Mar 2025
PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling Nikolai Korber Eduard Kromer Andreas Siebert S. Hauke Daniel Mueller-Gritschneder Björn Schuller 94 0 0 12 Mar 2025
Domain Adaptation for Japanese Sentence Embeddings with Contrastive Learning based on Synthetic Sentence Generation Zihao Chen H. Handa Miho Ohsaki Kimiaki Shirahama 102 0 0 12 Mar 2025
Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo Zachary B. Charles Gabriel Teston Lucio Dery Keith Rush Nova Fallen Zachary Garrett Arthur Szlam Arthur Douillard 459 6 0 12 Mar 2025
Unified Dense Prediction of Video Diffusion Lehan Yang Lu Qi Xianrui Li Sheng Li Varun Jampani Ming-Hsuan Yang MDE VOS VGen 135 0 0 12 Mar 2025
Double-Stage Feature-Level Clustering-Based Mixture of Experts Framework Bakary Badjie José Cecílio António Casimiro MoE 77 0 0 12 Mar 2025
Accelerating MoE Model Inference with Expert Sharding Oana Balmau Anne-Marie Kermarrec Rafael Pires André Loureiro Espírito Santo M. Vos Milos Vujasinovic MoE 94 0 0 11 Mar 2025
Large Language Model as Meta-Surrogate for Data-Driven Many-Task Optimization: A Proof-of-Principle Study Wei Wei Yue-Jiao Gong Jun Zhang 101 0 0 11 Mar 2025
Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models Bozhi Luan Wengang Zhou Hao Feng Zhe Wang Xiaosong Li Haoyang Li VLM 129 0 0 11 Mar 2025
HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding Shehreen Azad Vibhav Vineet Yogesh S Rawat VLM 493 3 0 11 Mar 2025
Context-aware Biases for Length Extrapolation Ali Veisi Hamidreza Amirzadeh Amir Mansourian 165 1 0 11 Mar 2025
Mellow: a small audio language model for reasoning Soham Deshmukh Satvik Dixit Rita Singh Bhiksha Raj AuLLM ReLM LRM 111 4 0 11 Mar 2025
Mimicking How Humans Interpret Out-of-Context Sentences Through Controlled Toxicity Decoding Maria Mihaela Trusca Liesbeth Allein 77 0 0 11 Mar 2025
FilmComposer: LLM-Driven Music Production for Silent Film Clips Zhifeng Xie Qile He Youjia Zhu Qiwei He Mengtian Li VGen 167 2 0 11 Mar 2025
Towards Large-scale Chemical Reaction Image Parsing via a Multimodal Large Language Model Yufan Chen Ching Ting Leung Jianwei Sun Yong Huang Linyan Li Hao Chen Hanyu Gao 98 1 0 11 Mar 2025
LLMIdxAdvis: Resource-Efficient Index Advisor Utilizing Large Language Model Xinxin Zhao Haoyang Li Jing Zhang Xinmei Huang Tieying Zhang Jianjun Chen Rui Shi Cuiping Li Hong Chen 57 0 0 10 Mar 2025
Advancing Vietnamese Information Retrieval with Learning Objective and Benchmark Phu-Vinh Nguyen Minh-Nam Tran Long H. B. Nguyen D. Dinh 78 0 0 10 Mar 2025
A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications Siyuan Mu Sen Lin MoE 487 5 0 10 Mar 2025
Large Language Model Guided Progressive Feature Alignment for Multimodal UAV Object Detection Wentao Wu Chenglong Li Xinyu Wang Bin Luo Qi Liu 60 1 0 10 Mar 2025
A Time Series Multitask Framework Integrating a Large Language Model, Pre-Trained Time Series Model, and Knowledge Graph Shule Hao Junpeng Bao Chuncheng Lu AI4TS KELM 103 0 0 10 Mar 2025
Detection Avoidance Techniques for Large Language Models Sinclair Schneider Florian Steuber João A. G. Schneider Gabi Dreo Rodosek DeLMO 113 0 0 10 Mar 2025
SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models Xun Liang Hanyu Wang Huayi Lai Pengnian Qi Shichao Song Jiawei Yang Jihao Zhao Feiyu Xiong Simin Niu Zhiyu Li VLM 86 0 0 10 Mar 2025
ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration Mengting Ai Tianxin Wei Yifan Chen Zhichen Zeng Ritchie Zhao G. Varatkar B. Rouhani Xianfeng Tang Hanghang Tong Jingrui He MoE 95 3 0 10 Mar 2025
Fine-Tuning LLMs for Report Summarization: Analysis on Supervised and Unsupervised Data Swati Rallapalli Shannon Gallagher Andrew O. Mellinger Jasmine Ratchford Anusha Sinha Tyler Brooks William R. Nichols Nick Winski Bryan Brown 80 0 0 10 Mar 2025
TokenButler: Token Importance is Predictable Yash Akhauri Ahmed F. AbouElhamayed Yifei Gao Chi-chih Chang Nilesh Jain Mohamed S. Abdelfattah 102 1 0 10 Mar 2025
TimeStep Master: Asymmetrical Mixture of Timestep LoRA Experts for Versatile and Efficient Diffusion Models in Vision Shaobin Zhuang Yiwei Guo Yanbo Ding Kunchang Li Xinyuan Chen Yaohui Wang Fangyikang Wang Ying Zhang Chen Li Yijiao Wang 84 1 0 10 Mar 2025
Mitigating Preference Hacking in Policy Optimization with Pessimism Dhawal Gupta Adam Fisch Christoph Dann Alekh Agarwal 123 1 0 10 Mar 2025
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model Lixue Gong Xiaoxia Hou Fanshi Li Liang Li Xiaochen Lian ... Qi Zhang Yuwei Zhang Shijia Zhao Jianchao Yang Weilin Huang DiffM VLM 116 14 0 10 Mar 2025
Datasets, Documents, and Repetitions: The Practicalities of Unequal Data Quality Alex Fang Hadi Pouransari Matt Jordan Alexander Toshev Vaishaal Shankar Ludwig Schmidt Tom Gunter 109 0 0 10 Mar 2025
Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment Xing Xie Jiawei Liu Ziyue Lin Huijie Fan Zhi Han Yandong Tang Liangqiong Qu 113 0 0 10 Mar 2025
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation Yuwei Niu Munan Ning Mengren Zheng Weiyang Jin Bin Lin ... Jiaqi Liao Chaoran Feng Kunpeng Ning Bin Zhu Li Yuan EGVM 147 26 0 10 Mar 2025
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning Xin Wen Bingchen Zhao Yilun Chen Jiangmiao Pang Xiaojuan Qi LM&Ro 222 0 0 10 Mar 2025
FaceID-6M: A Large-Scale, Open-Source FaceID Customization Dataset Shuhe Wang Xiaoya Li Jiwei Li G. Wang Xiaofei Sun ... Han Qiu Mo Yu Shengjie Shen Tianwei Zhang Eduard H. Hovy VLM 126 1 0 10 Mar 2025
GenAI for Simulation Model in Model-Based Systems Engineering Lin Zhang Yu Zhang Dusit Niyato Lei Ren Pengfei Gu Zhen Chen Y. Laili Wentong Cai Agostino Bruzzone AI4CE 71 0 0 09 Mar 2025
PythonPal: Enhancing Online Programming Education through Chatbot-Driven Personalized Feedback Sirinda Palahan 55 0 0 09 Mar 2025
Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation Yingfeng Luo Tong Zheng Yongyu Mu Yangqiu Song Qinghong Zhang ... Ziqiang Xu Peinan Feng Xiaoqian Liu Tong Xiao Jingbo Zhu AI4CE 510 3 0 09 Mar 2025
Dr Genre: Reinforcement Learning from Decoupled LLM Feedback for Generic Text Rewriting Yufei Li John Nham Ganesh Jawahar Lei Shu David C. Uthus Yun-hsuan Sung Chengrun Yang Itai Rolnick Yi Qiao Cong Liu OffRL 102 0 0 09 Mar 2025
Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation Wenhui Zhang Huiyu Xu Peng Kuang Zeqing He Ziqi Zhu Kui Ren AAML PILM 103 0 0 09 Mar 2025
Seeing Delta Parameters as JPEG Images: Data-Free Delta Compression with Discrete Cosine Transform Chenyu Huang Peng Ye Xinyu Wang Shenghe Zheng Biqing Qi Lei Bai Wanli Ouyang Tao Chen 59 2 0 09 Mar 2025
Privacy Auditing of Large Language Models Ashwinee Panda Xinyu Tang Milad Nasr Christopher A. Choquette-Choo Prateek Mittal PILM 133 10 0 09 Mar 2025
X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation Jian Ma Qirong Peng Xu Guo Chen Chen H. Lu Zhenyu Yang VLM 156 1 0 08 Mar 2025
Object-Centric World Model for Language-Guided Manipulation Youngjoon Jeong Junha Chun S. Cha Taesup Kim OCL VGen 402 2 0 08 Mar 2025
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation Runze Zhang Guoguang Du Xiaochuan Li Qi Jia Liang Jin ... Zhenhua Guo Yaqian Zhao Xiaoli Gong Rengang Li Baoyu Fan VGen 124 2 0 08 Mar 2025
DETQUS: Decomposition-Enhanced Transformers for QUery-focused Summarization Yasir Khan Xinlei Wu Sangpil Youm Justin Ho Aryaan Shaikh Jairo Garciga Rohan Sharma Bonnie J. Dorr LMTD 123 0 0 07 Mar 2025
Frequency Autoregressive Image Generation with Continuous Tokens Hu Yu Hao Luo Hangjie Yuan Yu Rong Feng Zhao VGen 94 10 0 07 Mar 2025
CASP: Compression of Large Multimodal Models Based on Attention Sparsity Mohsen Gholami Mohammad Akbari Kevin Cannons Yong Zhang 111 0 0 07 Mar 2025
Learning LLM Preference over Intra-Dialogue Pairs: A Framework for Utterance-level Understandings Xuanqing Liu Luyang Kong Wei Niu Afshin Khashei Belinda Zeng Steve Johnson Jon Jay Davor Golac Matt Pope 78 0 0 07 Mar 2025
TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models Mark YU Wenbo Hu Jinbo Xing Ying Shan VGen 152 12 0 07 Mar 2025
MergeQuant: Accurate 4-bit Static Quantization of Large Language Models by Channel-wise Calibration Jinguang Wang Jiangming Wang Haifeng Sun Tingting Yang Zirui Zhuang Wanyi Ning Yuexi Yin Q. Qi Jianxin Liao MQ MoMe 99 0 0 07 Mar 2025
GraphT5: Unified Molecular Graph-Language Modeling via Multi-Modal Cross-Token Attention Sangyeup Kim Nayeon Kim Yinhua Piao Sun Kim 109 0 0 07 Mar 2025