v1v2 (latest)

Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

17 February 2021

Papers citing "Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts"

50 / 871 papers shown

Title
Differentially Private Representation Learning via Image Captioning Tom Sander Yaodong Yu Maziar Sanjabi Alain Durmus Yi-An Ma Kamalika Chaudhuri Chuan Guo 102 4 0 04 Mar 2024
Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks Fakhraddin Alwajih El Moatez Billah Nagoudi Gagan Bhatia Abdelrahman Mohamed Muhammad Abdul-Mageed VLM LRM 83 16 0 01 Mar 2024
Improving Explicit Spatial Relationships in Text-to-Image Generation through an Automatically Derived Dataset Ander Salaberria Gorka Azkune Oier López de Lacalle A. Soroa Eneko Agirre Frank Keller EGVM 49 2 0 01 Mar 2024
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers Tsai-Shien Chen Aliaksandr Siarohin Willi Menapace Ekaterina Deyneka Hsiang-wei Chao ... Yuwei Fang Hsin-Ying Lee Jian Ren Ming-Hsuan Yang Sergey Tulyakov VGen 166 211 0 29 Feb 2024
Grounding Language Models for Visual Entity Recognition Zilin Xiao Ming Gong Paola Cascante-Bonilla Xingyao Zhang Jie Wu Vicente Ordonez VLM 97 10 0 28 Feb 2024
TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages Minsu Kim Jee-weon Jung Hyeongseop Rha Soumi Maiti Siddhant Arora Xuankai Chang Shinji Watanabe Y. Ro 104 7 0 25 Feb 2024
Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models Chaoya Jiang Wei Ye Mengfan Dong Hongrui Jia Haiyang Xu Mingshi Yan Ji Zhang Shikun Zhang VLM MLLM 120 16 0 24 Feb 2024
Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment Yunxin Li Xinyu Chen Baotian Hu Haoyuan Shi Min Zhang 85 5 0 21 Feb 2024
Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning Jihai Zhang Xiang Lan Xiaoye Qu Yu Cheng Mengling Feng Bryan Hooi SSL 104 5 0 19 Feb 2024
SInViG: A Self-Evolving Interactive Visual Agent for Human-Robot Interaction Jie Xu Hanbo Zhang Xinghang Li Huaping Liu Xuguang Lan Tao Kong LM&Ro 95 3 0 19 Feb 2024
ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models Guiming Hardy Chen Shunian Chen Ruifei Zhang Junying Chen Xiangbo Wu Zhiyi Zhang Zhihong Chen Jianquan Li Xiang Wan Benyou Wang VLM SyDa 136 139 0 18 Feb 2024
Cobra Effect in Reference-Free Image Captioning Metrics Zheng Ma Changxin Wang Yawen Ouyang Fei Zhao Jianbing Zhang Shujian Huang Jiajun Chen 90 2 0 18 Feb 2024
OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM Yutao Hu Tian-Xin Li Quanfeng Lu Wenqi Shao Junjun He Yu Qiao Ping Luo ELM LM&MA 87 67 0 14 Feb 2024
Pretraining Vision-Language Model for Difference Visual Question Answering in Longitudinal Chest X-rays Yeongjae Cho Taehee Kim Heejun Shin Sungzoon Cho Dongmyung Shin 39 2 0 14 Feb 2024
Discovering Universal Semantic Triggers for Text-to-Image Synthesis Shengfang Zhai Weilong Wang Jiajun Li Yinpeng Dong Hang Su Qingni Shen EGVM 64 3 0 12 Feb 2024
Examining Gender and Racial Bias in Large Vision-Language Models Using a Novel Dataset of Parallel Images Kathleen C. Fraser S. Kiritchenko 106 40 0 08 Feb 2024
CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning Ji Qi Ming Ding Weihan Wang Yushi Bai Qingsong Lv ... Bin Xu Lei Hou Juanzi Li Yuxiao Dong Jie Tang VLM LRM 68 17 0 06 Feb 2024
Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap Christopher Liao Christian So Theodoros Tsiligkaridis Brian Kulis 93 0 0 06 Feb 2024
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization Yang Jin Zhicheng Sun Kun Xu Kun Xu Liwei Chen ... Yuliang Liu Di Zhang Yang Song Kun Gai Yadong Mu VGen 113 51 0 05 Feb 2024
GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering Ziyu Ma Shutao Li Bin Sun Jianfei Cai Zuxiang Long Fuyan Ma 79 3 0 04 Feb 2024
Variance Alignment Score: A Simple But Tough-to-Beat Data Selection Method for Multimodal Contrastive Learning Yiping Wang Yifang Chen Wendan Yan Kevin Jamieson S. Du 75 6 0 03 Feb 2024
SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training? Hasan Hammoud Hani Itani Fabio Pizzati Philip Torr Adel Bibi Guohao Li CLIP VLM 224 38 0 02 Feb 2024
Can MLLMs Perform Text-to-Image In-Context Learning? Yuchen Zeng Wonjun Kang Yicong Chen Hyung Il Koo Kangwook Lee MLLM 88 11 0 02 Feb 2024
Towards 3D Molecule-Text Interpretation in Language Models Changhao Nai Zhiyuan Liu Yancheng Luo Xiang Wang Xiangnan He Kenji Kawaguchi Tat-Seng Chua Qi Tian AI4CE 106 49 0 25 Jan 2024
MM-LLMs: Recent Advances in MultiModal Large Language Models Duzhen Zhang Yahan Yu Jiahua Dong Chenxing Li Dan Su Chenhui Chu Dong Yu OffRL LRM 164 217 0 24 Jan 2024
SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval Siwei Wu Yizhi Li Kang Zhu Ge Zhang Yiming Liang ... Wenhu Chen Wenhao Huang Noura Al Moubayed Jie Fu Chenghua Lin 98 13 0 24 Jan 2024
UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion Wei Li Xue Xu Jiachen Liu Xinyan Xiao 64 8 0 24 Jan 2024
Exploring Simple Open-Vocabulary Semantic Segmentation Zihang Lai VLM 71 0 0 22 Jan 2024
Large-scale Reinforcement Learning for Diffusion Models Yinan Zhang Eric Tzeng Yilun Du Dmitry Kislyuk VLM 90 40 0 20 Jan 2024
Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge Haibi Wang Weifeng Ge LRM 108 4 0 19 Jan 2024
MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer Changyao Tian Xizhou Zhu Yuwen Xiong Weiyun Wang Zhe Chen ... Tong Lu Jie Zhou Hongsheng Li Yu Qiao Jifeng Dai AuLLM 145 49 0 18 Jan 2024
Veagle: Advancements in Multimodal Representation Learning Rajat Chawla Arkajit Datta Tushar Verma Adarsh Jha Anmol Gautam Ayush Vatsal Sukrit Chaterjee NS Mukunda Ishaan Bhola VLM 71 4 0 18 Jan 2024
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding Bowen Shi Peisen Zhao Zichen Wang Yuhang Zhang Yaoming Wang ... Wenrui Dai Junni Zou Hongkai Xiong Qi Tian Xiaopeng Zhang VLM 60 8 0 12 Jan 2024
Do Vision and Language Encoders Represent the World Similarly? Mayug Maniparambil Raiymbek Akshulakov Y. A. D. Djilali Sanath Narayan M. Seddik K. Mangalam Noel E. O'Connor VLM 98 14 0 10 Jan 2024
Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning Yiqi Wang Wentao Chen Xiaotian Han Xudong Lin Haiteng Zhao Yongfei Liu Bohan Zhai Jianbo Yuan Quanzeng You Hongxia Yang LRM 108 88 0 10 Jan 2024
Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding Yatong Bai Utsav Garg Apaar Shanker Haoming Zhang Samyak Parajuli ... Eugenia D Fomitcheva E. Branson Aerin Kim Somayeh Sojoudi Kyunghyun Cho 58 2 0 09 Jan 2024
DME-Driver: Integrating Human Decision Logic and 3D Scene Perception in Autonomous Driving Wencheng Han Dongqian Guo Cheng-Zhong Xu Jianbing Shen 110 29 0 08 Jan 2024
Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training Longtian Qiu Shan Ning Xuming He VLM 72 4 0 04 Jan 2024
SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment Ziping Ma Furong Xu Jian Liu Ming Yang Qingpei Guo VLM 79 3 0 04 Jan 2024
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training Alex Jinpeng Wang Linjie Li Kevin Qinghong Lin Jianfeng Wang Kevin Lin Zhengyuan Yang Lijuan Wang Mike Zheng Shou VLM VGen 104 12 0 01 Jan 2024
Masked Modeling for Self-supervised Representation Learning on Vision and Beyond Siyuan Li Luyuan Zhang Zedong Wang Di Wu Lirong Wu ... Jun Xia Cheng Tan Yang Liu Baigui Sun Stan Z. Li SSL 110 15 0 31 Dec 2023
Learning Vision from Models Rivals Learning Vision from Data Yonglong Tian Lijie Fan Kaifeng Chen Dina Katabi Dilip Krishnan Phillip Isola 108 51 0 28 Dec 2023
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action Jiasen Lu Christopher Clark Sangho Lee Zichen Zhang Savya Khosla Ryan Marten Derek Hoiem Aniruddha Kembhavi VLM MLLM 102 175 0 28 Dec 2023
MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices Xiangxiang Chu Limeng Qiao Xinyang Lin Shuang Xu Yang Yang ... Fei Wei Xinyu Zhang Bo Zhang Xiaolin Wei Chunhua Shen MLLM 130 44 0 28 Dec 2023
Visual Instruction Tuning towards General-Purpose Multimodal Model: A Survey Jiaxing Huang Jingyi Zhang Kai Jiang Han Qiu Shijian Lu 92 23 0 27 Dec 2023
Cloud-Device Collaborative Learning for Multimodal Large Language Models Guanqun Wang Jiaming Liu Chenxuan Li Junpeng Ma Yuan Zhang ... Kevin Zhang Maurice Chong Ray Zhang Yijiang Liu Shanghang Zhang 109 8 0 26 Dec 2023
GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection Haozhan Shen Tiancheng Zhao Mingwei Zhu Yuxiang Cai VLM ObjD 175 11 0 22 Dec 2023
Emage: Non-Autoregressive Text-to-Image Generation Zhangyin Feng Runyi Hu Liangxin Liu Fan Zhang Duyu Tang Yong Dai Xiaocheng Feng Jiwei Li Bing Qin Shuming Shi DiffM VLM 78 0 0 22 Dec 2023
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Zhe Chen Jiannan Wu Wenhai Wang Weijie Su Guo Chen ... Bin Li Ping Luo Tong Lu Yu Qiao Jifeng Dai VLM MLLM 285 1,216 0 21 Dec 2023
VCoder: Versatile Vision Encoders for Multimodal Large Language Models Jitesh Jain Jianwei Yang Humphrey Shi MLLM 76 31 0 21 Dec 2023