v1v2 (latest)

FiLM: Visual Reasoning with a General Conditioning Layer

22 September 2017

Aaron Courville

Papers citing "FiLM: Visual Reasoning with a General Conditioning Layer"

50 / 1,349 papers shown

Title
Singular Value Fine-tuning: Few-shot Segmentation requires Few-parameters Fine-tuning Yanpeng Sun Qiang Chen Xiangyu He Jian Wang Haocheng Feng Junyu Han Errui Ding Jian Cheng Zechao Li Jingdong Wang 95 57 0 13 Jun 2022
AR-NeRF: Unsupervised Learning of Depth and Defocus Effects from Natural Images with Aperture Rendering Neural Radiance Fields Takuhiro Kaneko 83 15 0 13 Jun 2022
Multi-instrument Music Synthesis with Spectrogram Diffusion Curtis Hawthorne Ian Simon Adam Roberts Neil Zeghidour Josh Gardner Ethan Manilow Jesse Engel DiffM 79 51 0 11 Jun 2022
Feature-informed Embedding Space Regularization For Audio Classification Yun-Ning Hung Alexander Lerch 61 5 0 10 Jun 2022
Universal Speech Enhancement with Score-based Diffusion Joan Serrà Santiago Pascual Jordi Pons R. O. Araz D. Scaini DiffM 114 105 0 07 Jun 2022
FiLM-Ensemble: Probabilistic Deep Learning via Feature-wise Linear Modulation Mehmet Özgür Türkoglu Alexander Becker H. Gündüz Mina Rezaei Bernd Bischl Rodrigo Caye Daudt Stefano Dáronco Jan Dirk Wegner Konrad Schindler FedML UQCV 126 28 0 31 May 2022
Few-Shot Diffusion Models Giorgio Giannone Didrik Nielsen Ole Winther DiffM 231 51 0 30 May 2022
A Continuous Time Framework for Discrete Denoising Models Andrew Campbell Joe Benton Valentin De Bortoli Tom Rainforth George Deligiannidis Arnaud Doucet DiffM 292 168 0 30 May 2022
Visual Superordinate Abstraction for Robust Concept Learning Qinjie Zheng Chaoyue Wang Dadong Wang Dacheng Tao VLM 57 2 0 28 May 2022
NeuralEcho: A Self-Attentive Recurrent Neural Network For Unified Acoustic Echo Suppression And Speech Enhancement Meng Yu Yong-mei Xu Chunlei Zhang Shizhong Zhang Dong Yu 50 11 0 20 May 2022
Meta-Learning Sparse Compression Networks Jonathan Richard Schwarz Yee Whye Teh 122 27 0 18 May 2022
Asking for Knowledge: Training RL Agents to Query External Knowledge Using Language Iou-Jen Liu Xingdi Yuan Marc-Alexandre Côté Pierre-Yves Oudeyer Alex Schwing RALM 88 12 0 12 May 2022
Feature Extractor Stacking for Cross-domain Few-shot Learning Hongyu Wang Eibe Frank Bernhard Pfahringer Michael Mayo G. Holmes 73 5 0 12 May 2022
A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech Recognition Sanghyun Yoo Inchul Song Yoshua Bengio 70 28 0 06 May 2022
What is Right for Me is Not Yet Right for You: A Dataset for Grounding Relative Directions via Multi-Task Learning Jae Hee Lee Matthias Kerzel Kyra Ahrens C. Weber S. Wermter 70 9 0 05 May 2022
Few-Shot Musical Source Separation Yu Wang Daniel Stoller Rachel M. Bittner J. P. Bello 123 14 0 03 May 2022
Progressive Learning for Image Retrieval with Hybrid-Modality Queries Yida Zhao Yuqing Song Qin Jin 80 29 0 24 Apr 2022
Training and challenging models for text-guided fashion image retrieval Eric Dodds Jack Culpepper Gaurav Srivastava 68 9 0 23 Apr 2022
KALA: Knowledge-Augmented Language Model Adaptation Minki Kang Jinheon Baek Sung Ju Hwang VLM KELM 100 36 0 22 Apr 2022
Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language Tasks Gen Luo Yiyi Zhou Xiaoshuai Sun Yan Wang Liujuan Cao Yongjian Wu Feiyue Huang Rongrong Ji ViT 64 47 0 16 Apr 2022
Sound Event Triage: Detecting Sound Events Considering Priority of Classes Noriyuki Tonami Keisuke Imoto 74 1 0 13 Apr 2022
Probabilistic Compositional Embeddings for Multimodal Image Retrieval Andrei Neculai Yanbei Chen Zeynep Akata CoGe 133 33 0 12 Apr 2022
Text-Driven Separation of Arbitrary Sounds Kevin Kilgour Beat Gfeller Qingqing Huang A. Jansen Scott Wisdom Marco Tagliasacchi 100 34 0 12 Apr 2022
Pareto Conditioned Networks Mathieu Reymond Eugenio Bargiacchi Ann Nowé 51 17 0 11 Apr 2022
Canonical Mean Filter for Almost Zero-Shot Multi-Task classification Yong Li Heng Wang Xiang Ye 122 0 0 08 Apr 2022
Personal VAD 2.0: Optimizing Personal Voice Activity Detection for On-Device Speech Recognition Shaojin Ding R. Rikhye Qiao Liang Yanzhang He Quan Wang A. Narayanan Tom O'Malley Ian McGraw 89 28 0 08 Apr 2022
Pre-train, Self-train, Distill: A simple recipe for Supersizing 3D Reconstruction Kalyan Vasudev Alwala Abhinav Gupta Shubham Tulsiani 93 31 0 07 Apr 2022
Heterogeneous Target Speech Separation Hyunjae Cho Wonbin Jung Junhyeok Lee Paris Smaragdis Sanghyun Woo 92 26 0 07 Apr 2022
Demonstrate Once, Imitate Immediately (DOME): Learning Visual Servoing for One-Shot Imitation Learning Eugene Valassakis Georgios Papagiannis Norman Di Palo Edward Johns 74 43 0 06 Apr 2022
Global HRTF Interpolation via Learned Affine Transformation of Hyper-conditioned Features Jingeun Lee Sungho Lee Kyogu Lee 49 8 0 06 Apr 2022
CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations Leonard Salewski A. Sophia Koepke Hendrik P. A. Lensch Zeynep Akata LRM NAI 102 20 0 05 Apr 2022
A Survey on Graph Representation Learning Methods Shima Khoshraftar A. An GNN AI4TS 112 125 0 04 Apr 2022
Universal Adaptor: Converting Mel-Spectrograms Between Different Configurations for Speech Synthesis Fan Wang Po-Chun Hsu Da-Rong Liu Hung-yi Lee 58 0 0 01 Apr 2022
A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings Fan Yu Zhihao Du Shiliang Zhang Yuxiao Lin Linfu Xie 42 15 0 31 Mar 2022
Disentangled3D: Learning a 3D Generative Model with Disentangled Geometry and Appearance from Monocular Images A. Tewari R. MallikarjunB. Xingang Pan Ohad Fried Maneesh Agrawala Christian Theobalt CoGe 3DV DRL 82 51 0 29 Mar 2022
Balanced Multimodal Learning via On-the-fly Gradient Modulation Xiaokang Peng Yake Wei Andong Deng Dong Wang Di Hu 111 215 0 29 Mar 2022
Separate What You Describe: Language-Queried Audio Source Separation Xubo Liu Haohe Liu Qiuqiang Kong Xinhao Mei Jinzheng Zhao Qiushi Huang Mark D. Plumbley Wenwu Wang 104 70 0 28 Mar 2022
A Fast and Efficient Conditional Learning for Tunable Trade-Off between Accuracy and Robustness Souvik Kundu Sairam Sundaresan Massoud Pedram Peter A. Beerel AAML 46 1 0 28 Mar 2022
Deep Multi-modal Fusion of Image and Non-image Data in Disease Diagnosis and Prognosis: A Review C. Cui Haichun Yang Yaohong Wang Shilin Zhao Zuhayr Asad Lori A. Coburn K. Wilson Bennett A. Landman Yuankai Huo 123 103 0 25 Mar 2022
Spatially Multi-conditional Image Generation Ritika Chakraborty Nikola Popovic D. Paudel Thomas Probst Luc Van Gool 52 1 0 25 Mar 2022
Occluded Human Mesh Recovery Rawal Khirodkar Shashank Tripathi Kris Kitani 3DH 107 74 0 24 Mar 2022
Sem2NeRF: Converting Single-View Semantic Masks to Neural Radiance Fields Yuedong Chen Qianyi Wu Chuanxia Zheng Tat-Jen Cham Jianfei Cai 129 38 0 21 Mar 2022
CRISPnet: Color Rendition ISP Net Matheus Souza Wolfgang Heidrich 48 2 0 20 Mar 2022
MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering Yang Ding Jing Yu Bangchang Liu Yue Hu Mingxin Cui Qi Wu 58 64 0 17 Mar 2022
ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and Implicit Similarity Ginger Delmas Rafael Sampaio de Rezende G. Csurka Diane Larlus VLM 70 107 0 15 Mar 2022
Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models Ning Ding Yujia Qin Guang Yang Fu Wei Zonghan Yang ... Jianfei Chen Yang Liu Jie Tang Juan Li Maosong Sun 119 205 0 14 Mar 2022
3D-GIF: 3D-Controllable Object Generation via Implicit Factorized Representations M. Lee Chaeyeon Chung Hojun Cho Minjung Kim Sanghun Jung Jaegul Choo Minhyuk Sung DiffM 66 4 0 12 Mar 2022
Suspected Object Matters: Rethinking Model's Prediction for One-stage Visual Grounding Yang Jiao Zequn Jie Jingjing Chen Lin Ma Yu-Gang Jiang OOD 63 8 0 10 Mar 2022
Image Search with Text Feedback by Additive Attention Compositional Learning Yuxin Tian Shawn D. Newsam K. Boakye CoGe 70 13 0 08 Mar 2022
Static Prediction of Runtime Errors by Learning to Execute Programs with External Resource Descriptions David Bieber Rishab Goel Daniel Zheng Hugo Larochelle Daniel Tarlow 62 15 0 07 Mar 2022