Title
X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval Yiwei Ma Guohai Xu Xiaoshuai Sun Ming Yan Ji Zhang Rongrong Ji CLIP VLM 34 271 0 15 Jul 2022
Contrastive Adapters for Foundation Model Group Robustness Michael Zhang Christopher Ré VLM 18 61 0 14 Jul 2022
Convolutional Bypasses Are Better Vision Transformer Adapters Shibo Jie Zhi-Hong Deng VPVLM 21 131 0 14 Jul 2022
u-HuBERT: Unified Mixed-Modal Speech Pretraining And Zero-Shot Transfer to Unlabeled Modality Wei-Ning Hsu Bowen Shi SSL VLM 27 41 0 14 Jul 2022
Language Modelling with Pixels Phillip Rust Jonas F. Lotz Emanuele Bugliarello Elizabeth Salesky Miryam de Lhoneux Desmond Elliott VLM 38 46 0 14 Jul 2022
EGSDE: Unpaired Image-to-Image Translation via Energy-Guided Stochastic Differential Equations Min Zhao Fan Bao Chongxuan Li Jun Zhu DiffM 40 189 0 14 Jul 2022
Is one annotation enough? A data-centric image classification benchmark for noisy and ambiguous label estimation Lars Schmarje Vasco Grossmann Claudius Zelenka S. Dippel R. Kiko ... M. Pastell J. Stracke A. Valros N. Volkmann Reinahrd Koch 43 34 0 13 Jul 2022
Don't Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning Homer Walke Jonathan Yang Albert Yu Aviral Kumar Jedrzej Orbik Avi Singh Sergey Levine OffRL OnRL 27 32 0 11 Jul 2022
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action Dhruv Shah B. Osinski Brian Ichter Sergey Levine LM&Ro 158 437 0 10 Jul 2022
Towards Highly Expressive Machine Learning Models of Non-Melanoma Skin Cancer S. Thomas J. Lefevre Glenn W. Baxter N. Hamilton MedIm 23 2 0 09 Jul 2022
Transformer Neural Processes: Uncertainty-Aware Meta Learning Via Sequence Modeling Tung Nguyen Aditya Grover BDL UQCV 19 99 0 09 Jul 2022
Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection H. Rasheed Muhammad Maaz Muhammad Uzair Khattak Salman Khan Fahad Shahbaz Khan ObjD VLM 27 151 0 07 Jul 2022
FewSOL: A Dataset for Few-Shot Object Learning in Robotic Environments P. JishnuJaykumar Yu-Wei Chao Yu Xiang 21 11 0 06 Jul 2022
SNeRF: Stylized Neural Implicit Representations for 3D Scenes Thu Nguyen-Phuoc Feng Liu Lei Xiao 45 28 0 05 Jul 2022
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations Jialu Li Hao Tan Joey Tianyi Zhou LM&Ro 64 12 0 05 Jul 2022
Open-Vocabulary 3D Detection via Image-level Class and Debiased Cross-modal Contrastive Learning Yuheng Lu Chenfeng Xu Xi Wei Xiaodong Xie Masayoshi Tomizuka Kurt Keutzer Shanghang Zhang 3DPC 25 20 0 05 Jul 2022
Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer Su He Taian Guo Tao Dai Ruizhi Qiao Bo Ren Shutao Xia VLM 75 49 0 05 Jul 2022
BiTAT: Neural Network Binarization with Task-dependent Aggregated Transformation Geondo Park Jaehong Yoon H. Zhang Xingge Zhang Sung Ju Hwang Yonina C. Eldar MQ 28 1 0 04 Jul 2022
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition Wenhao Wu Zhun Sun Wanli Ouyang VLM 103 93 0 04 Jul 2022
Can Language Understand Depth? Renrui Zhang Ziyao Zeng Ziyu Guo Yafeng Li VLM MDE 39 71 0 03 Jul 2022
Divert More Attention to Vision-Language Tracking Mingzhe Guo Zhipeng Zhang Heng Fan Li Jing 29 53 0 03 Jul 2022
Chat-to-Design: AI Assisted Personalized Fashion Design Weiming Zhuang Chongjie Ye Ying Xu Pengzhi Mao Shuai Zhang 34 1 0 03 Jul 2022
Counterfactually Measuring and Eliminating Social Bias in Vision-Language Pre-training Models Yi Zhang Junyan Wang Jitao Sang 22 27 0 03 Jul 2022
Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review Hao Wang Bin Guo Y. Zeng Yasan Ding Chen Qiu Ying Zhang Li Yao Zhiwen Yu 32 2 0 02 Jul 2022
Video + CLIP Baseline for Ego4D Long-term Action Anticipation Srijan Das Michael S. Ryoo VLM CLIP 19 17 0 01 Jul 2022
ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries Challenge 2022 Na Liu Xiaohan Wang Xiaobo Li Yi Yang Yueting Zhuang 24 18 0 01 Jul 2022
(Un)likelihood Training for Interpretable Embedding Jiaxin Wu Chong-Wah Ngo W. Chan Zhijian Hou 12 2 0 01 Jul 2022
VL-CheckList: Evaluating Pre-trained Vision-Language Models with Objects, Attributes and Relations Tiancheng Zhao Tianqi Zhang Mingwei Zhu Haozhan Shen Kyusong Lee Xiaopeng Lu Jianwei Yin VLM CoGe MLLM 45 91 0 01 Jul 2022
e-CLIP: Large-Scale Vision-Language Representation Learning in E-commerce Wonyoung Shin Jonghun Park Taekang Woo Yongwoo Cho Kwangjin Oh Hwanjun Song VLM 27 16 0 01 Jul 2022
Measuring Forgetting of Memorized Training Examples Matthew Jagielski Om Thakkar Florian Tramèr Daphne Ippolito Katherine Lee ... Eric Wallace Shuang Song Abhradeep Thakurta Nicolas Papernot Chiyuan Zhang TDI 66 102 0 30 Jun 2022
GSCLIP : A Framework for Explaining Distribution Shifts in Natural Language Zhiying Zhu Weixin Liang James Zou 37 9 0 30 Jun 2022
Distilling Model Failures as Directions in Latent Space Saachi Jain Hannah Lawrence Ankur Moitra A. Madry 23 90 0 29 Jun 2022
LViT: Language meets Vision Transformer in Medical Image Segmentation Zihan Li Yunxiang Li Qingde Li Puyang Wang Dazhou Guo Le Lu D. Jin You Zhang Qingqi Hong VLM MedIm 64 134 0 29 Jun 2022
Language-Based Audio Retrieval with Converging Tied Layers and Contrastive Loss Andrew Koh Chng Eng Siong 24 1 0 29 Jun 2022
Perspective (In)consistency of Paint by Text Hany Farid DiffM 25 36 0 27 Jun 2022
Automatic Generation of Product-Image Sequence in E-commerce Xiaochuan Fan Chi Zhang Yong-Jie Yang Yue Shang Xueying Zhang Zhen He Yun Xiao Bo Long Lingfei Wu 25 4 0 26 Jun 2022
VLCap: Vision-Language with Contrastive Learning for Coherent Video Paragraph Captioning Kashu Yamazaki Sang Truong Khoa T. Vo Michael Kidd Chase Rainwater Khoa Luu Ngan Le VLM CoGe 11 25 0 26 Jun 2022
ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings Arjun Majumdar Gunjan Aggarwal Bhavika Devnani Judy Hoffman Dhruv Batra LM&Ro 149 149 0 24 Jun 2022
A Fast Text-Driven Approach for Generating Artistic Content M. Lupascu Ryan Murdock Ionut Mironica Yijun Li 24 1 0 22 Jun 2022
Open Vocabulary Object Detection with Proposal Mining and Prediction Equalization Peixian Chen Kekai Sheng Mengdan Zhang Mingbao Lin Yunhang Shen Shaohui Lin Bo Ren Ke Li VLM ObjD 39 27 0 22 Jun 2022
Scaling Autoregressive Models for Content-Rich Text-to-Image Generation Jiahui Yu Yuanzhong Xu Jing Yu Koh Thang Luong Gunjan Baid ... Zarana Parekh Xin Li Han Zhang Jason Baldridge Yonghui Wu EGVM 107 1,066 0 22 Jun 2022
Bridging the Gap Between Indexing and Retrieval for Differentiable Search Index with Query Generation Shengyao Zhuang Houxing Ren Linjun Shou Jian Pei Ming Gong Guido Zuccon Daxin Jiang 40 65 0 21 Jun 2022
DALL-E for Detection: Language-driven Compositional Image Synthesis for Object Detection Yunhao Ge Lyne Tchapmi Brian Nlong Zhao Neel Joshi Laurent Itti Vibhav Vineet DiffM ObjD 28 16 0 20 Jun 2022
DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited Annotations Ximeng Sun Ping Hu Kate Saenko VLM 36 120 0 20 Jun 2022
GaLeNet: Multimodal Learning for Disaster Prediction, Management and Relief Rohit Saha Meng Fang Angeline Yasodhara Kyryl Truskovskyi Azin Asgarian D. Homola Raahil Shah Frederik Dieleman Jack Weatheritt Thomas Rogers 23 3 0 18 Jun 2022
Score-Guided Intermediate Layer Optimization: Fast Langevin Mixing for Inverse Problems Giannis Daras Y. Dagan A. Dimakis C. Daskalakis BDL 31 15 0 18 Jun 2022
Self-Supervised Learning for Videos: A Survey Madeline Chantry Schiappa Yogesh S Rawat M. Shah SSL 36 131 0 18 Jun 2022
Landscape Learning for Neural Network Inversion Ruoshi Liu Chen-Guang Mao Purva Tendulkar Hongya Wang Carl Vondrick 35 8 0 17 Jun 2022
VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix Teng Wang Wenhao Jiang Zhichao Lu Feng Zheng Ran Cheng Chengguo Yin Ping Luo VLM 34 43 0 17 Jun 2022
Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks Jiasen Lu Christopher Clark Rowan Zellers Roozbeh Mottaghi Aniruddha Kembhavi ObjD VLM MLLM 56 392 0 17 Jun 2022