Title
Differentiable Top-k Classification Learning Felix Petersen Hilde Kuehne Christian Borgelt Oliver Deussen 59 28 0 15 Jun 2022
Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across Modalities Hammad A. Ayyubi Christopher Thomas Lovish Chum R. Lokesh Long Chen ... Xudong Lin Xuande Feng Jaywon Koo Sounak Ray Shih-Fu Chang AI4TS 31 0 0 14 Jun 2022
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling Linjie Li Zhe Gan Kevin Qinghong Lin Chung-Ching Lin Zicheng Liu Ce Liu Lijuan Wang MLLM VLM 20 81 0 14 Jun 2022
Self-Supervision on Images and Text Reduces Reliance on Visual Shortcut Features Anil Palepu Andrew L. Beam OOD VLM 26 5 0 14 Jun 2022
Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt Sören Mindermann J. Brauner Muhammed Razzak Mrinank Sharma Andreas Kirsch ... Benedikt Höltgen Aidan Gomez Adrien Morisot Sebastian Farquhar Y. Gal 60 148 0 14 Jun 2022
ProcTHOR: Large-Scale Embodied AI Using Procedural Generation Matt Deitke Eli VanderBilt Alvaro Herrasti Luca Weihs Jordi Salvador ... Winson Han Eric Kolve Ali Farhadi Aniruddha Kembhavi Roozbeh Mottaghi LM&Ro 44 235 0 14 Jun 2022
Comprehending and Ordering Semantics for Image Captioning Yehao Li Yingwei Pan Ting Yao Tao Mei 26 87 0 14 Jun 2022
LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning Yi-Lin Sung Jaemin Cho Joey Tianyi Zhou VLM 21 236 0 13 Jun 2022
Multimodal Learning with Transformers: A Survey P. Xu Xiatian Zhu David A. Clifton ViT 72 527 0 13 Jun 2022
Transductive CLIP with Class-Conditional Contrastive Learning Junchu Huang Weijie Chen Shicai Yang Di Xie Shiliang Pu Yueting Zhuang VLM BDL NoLa 21 6 0 13 Jun 2022
INDIGO: Intrinsic Multimodality for Domain Generalization Puneet Mangla Shivam Chandhok Milan Aggarwal V. Balasubramanian Balaji Krishnamurthy VLM 41 2 0 13 Jun 2022
Bootstrapping Multi-view Representations for Fake News Detection Qichao Ying Xiaoxiao Hu Yangming Zhou Zhenxing Qian Dan Zeng Shiming Ge 24 45 0 12 Jun 2022
Referring Image Matting Jizhizi Li Jing Zhang Dacheng Tao ObjD VLM 26 22 0 10 Jun 2022
Seeing the forest and the tree: Building representations of both individual and collective dynamics with transformers Ran Liu Mehdi Azabou M. Dabagia Jingyun Xiao Eva L. Dyer AI4CE 32 19 0 10 Jun 2022
Neural Prompt Search Yuanhan Zhang Kaiyang Zhou Ziwei Liu VPVLM VLM 41 144 0 09 Jun 2022
Extreme Masking for Learning Instance and Distributed Visual Representations Zhirong Wu Zihang Lai Xiao Sun Stephen Lin 32 22 0 09 Jun 2022
DORA: Exploring Outlier Representations in Deep Neural Networks Kirill Bykov Mayukh Deb Dennis Grinwald Klaus-Robert Muller Marina M.-C. Höhne 27 12 0 09 Jun 2022
FOAM: A Follower-aware Speaker Model For Vision-and-Language Navigation Zi-Yi Dou Nanyun Peng 26 22 0 09 Jun 2022
Decentralized, not Dehumanized in the Metaverse: Bringing Utility to NFTs through Multimodal Interaction Anqi Wang Ze-Feng Gao Lik-Hang Lee Tristan Braud Pan Hui 28 19 0 08 Jun 2022
Revealing Single Frame Bias for Video-and-Language Learning Jie Lei Tamara L. Berg Joey Tianyi Zhou 24 110 0 07 Jun 2022
Intra-agent speech permits zero-shot task acquisition Chen Yan Federico Carnevale Petko Georgiev Adam Santoro Aurelia Guy Alistair Muldal Chia-Chun Hung Josh Abramson Timothy Lillicrap Greg Wayne LM&Ro 36 9 0 07 Jun 2022
Training Subset Selection for Weak Supervision Hunter Lang Aravindan Vijayaraghavan David Sontag NoLa 16 21 0 06 Jun 2022
Blended Latent Diffusion Omri Avrahami Ohad Fried Dani Lischinski DiffM 59 373 0 06 Jun 2022
Volumetric Disentanglement for 3D Scene Manipulation Sagie Benaim Frederik Warburg Peter Ebert Christensen Serge Belongie 28 15 0 06 Jun 2022
APES: Articulated Part Extraction from Sprite Sheets Zhan Xu Matthew Fisher Yang Zhou Deepali Aneja Rushikesh Dudhat Li Yi E. Kalogerakis 41 2 0 04 Jun 2022
Delving into the Openness of CLIP Shuhuai Ren Lei Li Xuancheng Ren Guangxiang Zhao Xu Sun VLM 25 13 0 04 Jun 2022
Revisiting the "Video" in Video-Language Understanding S. Buch Cristobal Eyzaguirre Adrien Gaidon Jiajun Wu L. Fei-Fei Juan Carlos Niebles 32 156 0 03 Jun 2022
A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge Dustin Schwenk Apoorv Khandelwal Christopher Clark Kenneth Marino Roozbeh Mottaghi 16 505 0 03 Jun 2022
Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees Jue Wang Binhang Yuan Luka Rimanic Yongjun He Tri Dao Beidi Chen Christopher Ré Ce Zhang AI4CE 24 11 0 02 Jun 2022
Decentralized Training of Foundation Models in Heterogeneous Environments Binhang Yuan Yongjun He Jared Davis Tianyi Zhang Tri Dao Beidi Chen Percy Liang Christopher Ré Ce Zhang 27 90 0 02 Jun 2022
REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual Question Answering Yuanze Lin Yujia Xie Dongdong Chen Yichong Xu Chenguang Zhu Lu Yuan 47 71 0 02 Jun 2022
Prefix Conditioning Unifies Language and Label Supervision Kuniaki Saito Kihyuk Sohn Xinming Zhang Chun-Liang Li Chen-Yu Lee Kate Saenko Tomas Pfister VLM CLIP 34 16 0 02 Jun 2022
Weakly Supervised Representation Learning with Sparse Perturbations Kartik Ahuja Jason S. Hartford Yoshua Bengio SSL 35 58 0 02 Jun 2022
CLIP4IDC: CLIP for Image Difference Captioning Zixin Guo T. Wang Jorma T. Laaksonen VLM 26 27 0 01 Jun 2022
Efficient Self-supervised Vision Pretraining with Local Masked Reconstruction Jun Chen Ming Hu Boyang Albert Li Mohamed Elhoseiny 47 36 0 01 Jun 2022
VALHALLA: Visual Hallucination for Machine Translation Yi Li Rameswar Panda Yoon Kim Chun-Fu Chen Rogerio Feris David D. Cox Nuno Vasconcelos MLLM 40 38 0 31 May 2022
Improved Vector Quantized Diffusion Models Zhicong Tang Shuyang Gu Jianmin Bao Dong Chen Fang Wen DiffM 181 63 0 31 May 2022
Post-hoc Concept Bottleneck Models Mert Yuksekgonul Maggie Wang James Zou 145 185 0 31 May 2022
Few-Shot Diffusion Models Giorgio Giannone Didrik Nielsen Ole Winther DiffM 183 49 0 30 May 2022
VLUE: A Multi-Task Benchmark for Evaluating Vision-Language Models Wangchunshu Zhou Yan Zeng Shizhe Diao Xinsong Zhang CoGe VLM 32 13 0 30 May 2022
Prompt-aligned Gradient for Prompt Tuning Beier Zhu Yulei Niu Yucheng Han Yuehua Wu Hanwang Zhang VLM 186 271 0 30 May 2022
SupMAE: Supervised Masked Autoencoders Are Efficient Vision Learners Feng Liang Yangguang Li Diana Marculescu SSL TPM ViT 51 22 0 28 May 2022
Parameter-Efficient and Student-Friendly Knowledge Distillation Jun Rao Xv Meng Liang Ding Shuhan Qi Dacheng Tao 37 46 0 28 May 2022
CyCLIP: Cyclic Contrastive Language-Image Pretraining Shashank Goel Hritik Bansal S. Bhatia Ryan A. Rossi Vishwa Vinay Aditya Grover CLIP VLM 182 132 0 28 May 2022
GIT: A Generative Image-to-text Transformer for Vision and Language Jianfeng Wang Zhengyuan Yang Xiaowei Hu Linjie Li Kevin Qinghong Lin Zhe Gan Zicheng Liu Ce Liu Lijuan Wang VLM 59 528 0 27 May 2022
Video2StyleGAN: Disentangling Local and Global Variations in a Video Rameen Abdal Peihao Zhu Niloy J. Mitra Peter Wonka VGen 30 7 0 27 May 2022
A Survey on Long-Tailed Visual Recognition Lu Yang He Jiang Q. Song Jun Guo 16 123 0 27 May 2022
Can Foundation Models Help Us Achieve Perfect Secrecy? Simran Arora Christopher Ré FedML 24 6 0 27 May 2022
Prompt-based Learning for Unpaired Image Captioning Peipei Zhu Tianlin Li Lin Zhu Zhenglong Sun Weishi Zheng Yaowei Wang Chia-Ju Chen VLM 23 31 0 26 May 2022
DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally Spreading Out Disinformation Jingnong Qu Liunian Harold Li Jieyu Zhao Sunipa Dev Kai-Wei Chang 21 12 0 25 May 2022