DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models

4 October 2024

Zhuowen Tu

Papers citing "DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models"

22 / 22 papers shown

Title
MemoVis: A GenAI-Powered Tool for Creating Companion Reference Images for 3D Design Feedback Chen Chen Cuong Nguyen Thibault Groueix Vladimir G. Kim Nadir Weibel DiffM 53 4 0 09 Sep 2024
Eliminating Position Bias of Language Models: A Mechanistic Approach Ziqi Wang Hanlin Zhang Xiner Li Kuan-Hao Huang Chi Han Shuiwang Ji Sham Kakade Hao Peng Heng Ji 152 20 0 01 Jul 2024
A Better LLM Evaluator for Text Generation: The Impact of Prompt Output Sequencing and Optimization Kuanchao Chu Yi-Pei Chen Hideki Nakayama 114 10 0 14 Jun 2024
Chameleon: Mixed-Modal Early-Fusion Foundation Models Chameleon Team MLLM 201 338 0 16 May 2024
Challenges for Responsible AI Design and Workflow Integration in Healthcare: A Case Study of Automatic Feeding Tube Qualification in Radiology Anja Thieme Abhijith Rajamohan Benjamin Cooper Heather Groombridge R. Simister ... Ozan Oktay Javier Alvarez-Valle A. Nori Stephen Harris Joseph Jacob 64 5 0 08 May 2024
TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding Bozhi Luan Hao Feng Hong Chen Yonghui Wang Wen-gang Zhou Houqiang Li MLLM 104 17 0 15 Apr 2024
Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models Chaoqun Liu Wenxuan Zhang Yiran Zhao Anh Tuan Luu Lidong Bing LRM 108 14 0 15 Mar 2024
Can Large Language Models Reason and Plan? Subbarao Kambhampati LRM 71 79 0 07 Mar 2024
The Generative AI Paradox: "What It Can Create, It May Not Understand" Peter West Ximing Lu Nouha Dziri Faeze Brahman Linjie Li ... Khyathi Chandu Benjamin Newman Pang Wei Koh Allyson Ettinger Yejin Choi AIMat 87 79 0 31 Oct 2023
Evaluating Large Language Models in Theory of Mind Tasks Michal Kosinskihttps://www.semanticscholar.org/me/account LLMAG LRM 94 135 0 04 Feb 2023
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark Ashwin Kalyan ELM ReLM LRM 290 1,299 0 20 Sep 2022
Emergent Abilities of Large Language Models Jason W. Wei Yi Tay Rishi Bommasani Colin Raffel Barret Zoph ... Tatsunori Hashimoto Oriol Vinyals Percy Liang J. Dean W. Fedus ELM ReLM LRM 295 2,521 0 15 Jun 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 859 9,714 0 28 Jan 2022
FLAVA: A Foundational Language And Vision Alignment Model Amanpreet Singh Ronghang Hu Vedanuj Goswami Guillaume Couairon Wojciech Galuba Marcus Rohrbach Douwe Kiela CLIP VLM 120 719 0 08 Dec 2021
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation Junnan Li Ramprasaath R. Selvaraju Akhilesh Deepak Gotmare Shafiq Joty Caiming Xiong Guosheng Lin FaML 223 1,979 0 16 Jul 2021
MultiBench: Multiscale Benchmarks for Multimodal Representation Learning Paul Pu Liang Yiwei Lyu Xiang Fan Zetian Wu Yun Cheng ... Peter Wu Michelle A. Lee Yuke Zhu Ruslan Salakhutdinov Louis-Philippe Morency VLM 108 171 0 15 Jul 2021
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text Hassan Akbari Liangzhe Yuan Rui Qian Wei-Hong Chuang Shih-Fu Chang Huayu Chen Boqing Gong ViT 335 590 0 22 Apr 2021
Large-Scale Adversarial Training for Vision-and-Language Representation Learning Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu ObjD VLM 91 498 0 11 Jun 2020
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks Jiasen Lu Dhruv Batra Devi Parikh Stefan Lee SSL VLM 261 3,703 0 06 Aug 2019
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.8K 95,324 0 11 Oct 2018
Black-box Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers Ji Gao Jack Lanchantin M. Soffa Yanjun Qi AAML 146 725 0 13 Jan 2018
Multimodal Machine Learning: A Survey and Taxonomy T. Baltrušaitis Chaitanya Ahuja Louis-Philippe Morency 124 2,945 0 26 May 2017