Title
Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source Separation Moitreya Chatterjee Narendra Ahuja A. Cherian 85 12 0 29 Oct 2022
Towards Language-driven Scientific AI José Manuél Gómez-Pérez 54 0 0 27 Oct 2022
Multilingual Multimodal Learning with Machine Translated Text Chen Qiu Dan Oneaţă Emanuele Bugliarello Stella Frank Desmond Elliott 121 15 0 24 Oct 2022
Towards Unifying Reference Expression Generation and Comprehension Duo Zheng Tao Kong Ya Jing Jiaan Wang Xiaojie Wang ObjD 57 6 0 24 Oct 2022
Extending Phrase Grounding with Pronouns in Visual Dialogues Panzhong Lu Xin Zhang Meishan Zhang Min Zhang ObjD 74 4 0 23 Oct 2022
Do Vision-and-Language Transformers Learn Grounded Predicate-Noun Dependencies? Mitja Nikolaus Emmanuelle Salin Stéphane Ayache Abdellah Fourtassi Benoit Favre 81 14 0 21 Oct 2022
LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal Modeling Dongsheng Chen Chaofan Tao Lu Hou Lifeng Shang Xin Jiang Qun Liu VLM 98 19 0 21 Oct 2022
Can Visual Context Improve Automatic Speech Recognition for an Embodied Agent? Pradip Pramanick Chayan Sarkar 53 7 0 21 Oct 2022
Visual Spatial Description: Controlled Spatial-Oriented Image-to-Text Generation Yu Zhao Jianguo Wei Zhichao Lin Yueheng Sun Meishan Zhang Hao Fei 79 16 0 20 Oct 2022
Scene Text Recognition with Semantics Joshua Cesare Placidi Yishu Miao Zixu Wang Lucia Specia 56 1 0 19 Oct 2022
Grounded Video Situation Recognition Zeeshan Khan C. V. Jawahar Makarand Tapaswi 100 14 0 19 Oct 2022
Learning to Discover and Detect Objects V. Fomenko Ismail Elezi Deva Ramanan Laura Leal-Taixé Aljosa Osep ObjD 91 11 0 19 Oct 2022
Image Semantic Relation Generation Mingzhe Du 33 0 0 19 Oct 2022
Dense but Efficient VideoQA for Intricate Compositional Reasoning Jihyeon Janel Lee Wooyoung Kang Eun-Sol Kim CoGe 51 4 0 19 Oct 2022
Non-Contrastive Learning Meets Language-Image Pre-Training Jinghao Zhou Li Dong Zhe Gan Lijuan Wang Furu Wei VLM CLIP 75 26 0 17 Oct 2022
Contrastive Language-Image Pre-Training with Knowledge Graphs Xuran Pan Tianzhu Ye Dongchen Han S. Song Gao Huang VLM CLIP 81 54 0 17 Oct 2022
LAION-5B: An open large-scale dataset for training next generation image-text models Christoph Schuhmann Romain Beaumont Richard Vencu Cade Gordon Ross Wightman ... Srivatsa Kundurthy Katherine Crowson Ludwig Schmidt R. Kaczmarczyk J. Jitsev VLM MLLM CLIP 234 3,521 0 16 Oct 2022
EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge Distillation and Modal-adaptive Pruning Tiannan Wang Wangchunshu Zhou Yan Zeng Xinsong Zhang VLM 82 44 0 14 Oct 2022
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training Wenliang Dai Zihan Liu Ziwei Ji Jane Polak Scowcroft Pascale Fung MLLM VLM 88 67 0 14 Oct 2022
Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets Anurag Roy David Johnson Ekka Saptarshi Ghosh Abir Das 58 1 0 13 Oct 2022
Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning Yuchong Sun Hongwei Xue Ruihua Song Bei Liu Huan Yang Jianlong Fu AI4TS VLM 96 72 0 12 Oct 2022
MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model Yatai Ji Junjie Wang Yuan Gong Lin Zhang Yan Zhu Hongfa Wang Jiaxing Zhang Tetsuya Sakai Yujiu Yang MLLM 82 33 0 11 Oct 2022
Transformer-based Localization from Embodied Dialog with Large-scale Pre-training Meera Hahn James M. Rehg LM&Ro 104 4 0 10 Oct 2022
Improving Visual-Semantic Embeddings by Learning Semantically-Enhanced Hard Negatives for Cross-modal Information Retrieval Yan Gong Georgina Cosma 71 11 0 10 Oct 2022
LOCL: Learning Object-Attribute Composition using Localization Satish Kumar A S M Iftekhar Ekta Prashnani B.S.Manjunath 96 3 0 07 Oct 2022
Ambiguous Images With Human Judgments for Robust Visual Event Classification Kate Sanders Reno Kriz Anqi Liu Benjamin Van Durme 96 12 0 06 Oct 2022
Adaptive Ranking-based Sample Selection for Weakly Supervised Class-imbalanced Text Classification Linxin Song Jieyu Zhang Tianxiang Yang M. Goto 75 4 0 06 Oct 2022
Data Poisoning Attacks Against Multimodal Encoders Ziqing Yang Xinlei He Zheng Li Michael Backes Mathias Humbert Pascal Berrang Yang Zhang AAML 176 52 0 30 Sep 2022
LGDN: Language-Guided Denoising Network for Video-Language Modeling Haoyu Lu Mingyu Ding Nanyi Fei Yuqi Huo Zhiwu Lu VLM 151 16 0 23 Sep 2022
DRAMA: Joint Risk Localization and Captioning in Driving Srikanth Malla Chiho Choi Isht Dwivedi Joonhyang Choi Jiachen Li 183 100 0 22 Sep 2022
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering Hao Li Jinfa Huang Peng Jin Guoli Song Qi Wu Jie Chen 141 22 0 21 Sep 2022
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark Ashwin Kalyan ELM ReLM LRM 299 1,301 0 20 Sep 2022
DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection Lewei Yao Jianhua Han Youpeng Wen Xiaodan Liang Dan Xu Wei Zhang Zhenguo Li Chunjing Xu Hang Xu CLIP VLM 188 160 0 20 Sep 2022
The Ability of Image-Language Explainable Models to Resemble Domain Expertise P. Werner Anna Zapaishchykova Ujjwal Ratan 86 2 0 19 Sep 2022
3D VSG: Long-term Semantic Scene Change Prediction through 3D Variable Scene Graphs Sam Looper Javier Rodriguez Puigvert Roland Siegwart Cesar Cadena L. Schmid 3DPC 75 23 0 16 Sep 2022
LAVIS: A Library for Language-Vision Intelligence Dongxu Li Junnan Li Hung Le Guangsen Wang Silvio Savarese Guosheng Lin VLM 192 56 0 15 Sep 2022
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks Junke Wang Dongdong Chen Zuxuan Wu Chong Luo Luowei Zhou Yucheng Zhao Yujia Xie Ce Liu Yu-Gang Jiang Lu Yuan MLLM VLM 139 153 0 15 Sep 2022
PaLI: A Jointly-Scaled Multilingual Language-Image Model Xi Chen Tianlin Li Soravit Changpinyo A. Piergiovanni Piotr Padlewski ... Andreas Steiner A. Angelova Xiaohua Zhai N. Houlsby Radu Soricut MLLM VLM 208 742 0 14 Sep 2022
MUST-VQA: MUltilingual Scene-text VQA Emanuele Vivoli Ali Furkan Biten Andrés Mafla Dimosthenis Karatzas Lluís Gómez 113 6 0 14 Sep 2022
Combining Metric Learning and Attention Heads For Accurate and Efficient Multilabel Image Classification K. Prokofiev V. Sovrasov VLM 86 10 0 14 Sep 2022
CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment Hongwei Xue Yuchong Sun Bei Liu Jianlong Fu Rui Song Houqiang Li Jiebo Luo CLIP VLM 131 70 0 14 Sep 2022
PreSTU: Pre-Training for Scene-Text Understanding Jihyung Kil Soravit Changpinyo Xi Chen Hexiang Hu Sebastian Goodman Wei-Lun Chao Radu Soricut VLM 191 29 0 12 Sep 2022
Towards explainable evaluation of language models on the semantic similarity of visual concepts Maria Lymperaiou George Manoliadis Orfeas Menis Mastromichalakis Edmund Dervakos Giorgos Stamou AAML 73 5 0 08 Sep 2022
Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering Jiong Wang Zhou Zhao Weike Jin 70 0 0 08 Sep 2022
VGStore: A Multimodal Extension to SPARQL for Querying RDF Scene Graph Yanzeng Li Zilong Zheng Wenjuan Han Lei Zou 74 2 0 07 Sep 2022
Scalable Regularization of Scene Graph Generation Models using Symbolic Theories Davide Buffelli Efthymia Tsamoura 72 2 0 06 Sep 2022
Interactive Question Answering Systems: Literature Review Giovanni Maria Biancofiore Yashar Deldjoo Tommaso Di Noia E. Sciascio Fedelucio Narducci 111 23 0 04 Sep 2022
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling Tsu-Jui Fu Linjie Li Zhe Gan Kevin Qinghong Lin William Yang Wang Lijuan Wang Zicheng Liu VLM 130 65 0 04 Sep 2022
Frido: Feature Pyramid Diffusion for Complex Scene Image Synthesis Wanshu Fan Yen-Chun Chen Dongdong Chen Yu Cheng Lu Yuan Yu-Chiang Frank Wang DiffM 92 97 0 29 Aug 2022
Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment Mustafa Shukor Guillaume Couairon Matthieu Cord VLM CLIP 100 27 0 29 Aug 2022