Title
Assessing Multilingual Fairness in Pre-trained Multimodal Representations Jialu Wang Yang Liu Qing Guo EGVM 26 35 0 12 Jun 2021
Neural Symbolic Regression that Scales Luca Biggio Tommaso Bendinelli Alexander Neitz Aurelien Lucchi Giambattista Parascandolo 40 170 0 11 Jun 2021
What Can Knowledge Bring to Machine Learning? -- A Survey of Low-shot Learning for Structured Data Yang Hu Adriane P. Chapman Guihua Wen Dame Wendy Hall 42 24 0 11 Jun 2021
Learning to See by Looking at Noise Manel Baradad Jonas Wulff Tongzhou Wang Phillip Isola Antonio Torralba 28 89 0 10 Jun 2021
Scaling Vision Transformers Xiaohua Zhai Alexander Kolesnikov N. Houlsby Lucas Beyer ViT 55 1,060 0 08 Jun 2021
Differentiable Quality Diversity Matthew C. Fontaine Stefanos Nikolaidis 51 89 0 07 Jun 2021
On the Expressive Power of Self-Attention Matrices Valerii Likhosherstov K. Choromanski Adrian Weller 37 34 0 07 Jun 2021
MERLOT: Multimodal Neural Script Knowledge Models Rowan Zellers Ximing Lu Jack Hessel Youngjae Yu J. S. Park Jize Cao Ali Farhadi Yejin Choi VLM LRM 22 372 0 04 Jun 2021
A Little Robustness Goes a Long Way: Leveraging Robust Features for Targeted Transfer Attacks Jacob Mitchell Springer Melanie Mitchell Garrett Kenyon AAML 31 43 0 03 Jun 2021
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers Enze Xie Wenhai Wang Zhiding Yu Anima Anandkumar J. Álvarez Ping Luo ViT 35 4,836 0 31 May 2021
Contrastive Fine-tuning Improves Robustness for Neural Rankers Xiaofei Ma Cicero Nogueira dos Santos Andrew O. Arnold 13 20 0 27 May 2021
CogView: Mastering Text-to-Image Generation via Transformers Ming Ding Zhuoyi Yang Wenyi Hong Wendi Zheng Chang Zhou ... Junyang Lin Xu Zou Zhou Shao Hongxia Yang Jie Tang ViT VLM 19 762 0 26 May 2021
Improved OOD Generalization via Adversarial Training and Pre-training Mingyang Yi Lu Hou Jiacheng Sun Lifeng Shang Xin Jiang Qun Liu Zhi-Ming Ma VLM 28 83 0 24 May 2021
Backdoor Attacks on Self-Supervised Learning Aniruddha Saha Ajinkya Tejankar Soroush Abbasi Koohpayegani Hamed Pirsiavash SSL AAML 27 101 0 21 May 2021
A Review on Explainability in Multimodal Deep Neural Nets Gargi Joshi Rahee Walambe K. Kotecha 29 139 0 17 May 2021
Vision Transformers are Robust Learners Sayak Paul Pin-Yu Chen ViT 28 304 0 17 May 2021
Evading the Simplicity Bias: Training a Diverse Set of Models Discovers Solutions with Superior OOD Generalization Damien Teney Ehsan Abbasnejad Simon Lucey Anton Van Den Hengel 25 87 0 12 May 2021
Diffusion Models Beat GANs on Image Synthesis Prafulla Dhariwal Alex Nichol 83 7,441 0 11 May 2021
Contrastive Attraction and Contrastive Repulsion for Representation Learning Huangjie Zheng Xu Chen Jiangchao Yao Hongxia Yang Chunyuan Li Ya-Qin Zhang Hao Zhang Ivor Tsang Jingren Zhou Mingyuan Zhou SSL 42 12 0 08 May 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Nayeon Lee Weicheng Kuo Huayu Chen VLM ObjD 225 899 0 28 Apr 2021
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra Nicolas Carion ObjD VLM 57 861 0 26 Apr 2021
PanGu- $α$ : Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation Wei Zeng Xiaozhe Ren Teng Su Hui Wang Yi-Lun Liao ... Gaojun Fan Yaowei Wang Xuefeng Jin Qun Liu Yonghong Tian ALM MoE AI4CE 32 212 0 26 Apr 2021
Playing Lottery Tickets with Vision and Language Zhe Gan Yen-Chun Chen Linjie Li Tianlong Chen Yu Cheng Shuohang Wang Jingjing Liu Lijuan Wang Zicheng Liu VLM 106 54 0 23 Apr 2021
Multiscale Vision Transformers Haoqi Fan Bo Xiong K. Mangalam Yanghao Li Zhicheng Yan Jitendra Malik Christoph Feichtenhofer ViT 63 1,224 0 22 Apr 2021
Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training Chenyi Lei Shixian Luo Yong-jin Liu Wanggui He Jiamang Wang Guoxin Wang Haihong Tang C. Miao Houqiang Li 30 41 0 19 Apr 2021
Data-Efficient Language-Supervised Zero-Shot Learning with Self-Distillation Rui Cheng Bichen Wu Peizhao Zhang Peter Vajda Joseph E. Gonzalez CLIP VLM 21 31 0 18 Apr 2021
CLIPScore: A Reference-free Evaluation Metric for Image Captioning Jack Hessel Ari Holtzman Maxwell Forbes Ronan Le Bras Yejin Choi CLIP 15 1,442 0 18 Apr 2021
Cross-Modal Retrieval Augmentation for Multi-Modal Classification Shir Gur Natalia Neverova C. Stauffer Ser-Nam Lim Douwe Kiela A. Reiter 14 26 0 16 Apr 2021
Exploring Visual Engagement Signals for Representation Learning Menglin Jia Zuxuan Wu A. Reiter Claire Cardie Serge J. Belongie Ser-Nam Lim 21 13 0 15 Apr 2021
Self-supervised Video Object Segmentation by Motion Grouping Charig Yang Hala Lamdouar Erika Lu Andrew Zisserman Weidi Xie VOS OCL 30 157 0 15 Apr 2021
Compressing Visual-linguistic Model via Knowledge Distillation Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lijuan Wang Yezhou Yang Zicheng Liu VLM 39 96 0 05 Apr 2021
Towards General Purpose Vision Systems Tanmay Gupta Amita Kamath Aniruddha Kembhavi Derek Hoiem 11 50 0 01 Apr 2021
Composable Augmentation Encoding for Video Representation Learning Chen Sun Arsha Nagrani Yonglong Tian Cordelia Schmid SSL AI4TS 35 17 0 01 Apr 2021
Diagnosing Vision-and-Language Navigation: What Really Matters Wanrong Zhu Yuankai Qi P. Narayana Kazoo Sone Sugato Basu Qing Guo Qi Wu M. Eckstein Luu Anh Tuan LM&Ro 27 50 0 30 Mar 2021
LatentKeypointGAN: Controlling GANs via Latent Keypoints Xingzhe He Bastian Wandt Helge Rhodin GAN 30 6 0 29 Mar 2021
Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers Hila Chefer Shir Gur Lior Wolf ViT 28 303 0 29 Mar 2021
Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for Improved Cross-Modal Retrieval Gregor Geigle Jonas Pfeiffer Nils Reimers Ivan Vulić Iryna Gurevych 32 59 0 22 Mar 2021
Paint by Word A. Andonian David Bau Audrey Cui YeonHwan Park Ali Jahanian Antonio Torralba A. Oliva DiffM 20 125 0 19 Mar 2021
MDMMT: Multidomain Multimodal Transformer for Video Retrieval Maksim Dzabraev M. Kalashnikov Stepan Alekseevich Komkov Aleksandr Petiushko 24 128 0 19 Mar 2021
Large-Scale Zero-Shot Image Classification from Rich and Diverse Textual Descriptions Sebastian Bujwid Josephine Sullivan VLM 23 28 0 17 Mar 2021
What is Multimodality? Letitia Parcalabescu Nils Trost Anette Frank 21 0 0 10 Mar 2021
Pretrained Transformers as Universal Computation Engines Kevin Lu Aditya Grover Pieter Abbeel Igor Mordatch 28 217 0 09 Mar 2021
CoDeGAN: Contrastive Disentanglement for Generative Adversarial Network Lili Pan Peijun Tang Zhiyong Chen Zenglin Xu GAN DRL 18 6 0 05 Mar 2021
WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning Krishna Srinivasan K. Raman Jiecao Chen Michael Bendersky Marc Najork VLM 208 310 0 02 Mar 2021
Axiomatic Explanations for Visual Search, Retrieval, and Similarity Learning Mark Hamilton Scott M. Lundberg Lei Zhang Stephanie Fu William T. Freeman FAtt 30 10 0 28 Feb 2021
Countering Malicious DeepFakes: Survey, Battleground, and Horizon Felix Juefei Xu Run Wang Yihao Huang Qing-Wu Guo Lei Ma Yang Liu AAML 33 130 0 27 Feb 2021
A Primer on Contrastive Pretraining in Language Processing: Methods, Lessons Learned and Perspectives Nils Rethmeier Isabelle Augenstein SSL VLM 90 90 0 25 Feb 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,781 0 24 Feb 2021
Understanding and Creating Art with AI: Review and Outlook E. Cetinic James She 132 311 0 18 Feb 2021
LambdaNetworks: Modeling Long-Range Interactions Without Attention Irwan Bello 272 179 0 17 Feb 2021