v1v2 (latest)

FiLM: Visual Reasoning with a General Conditioning Layer

22 September 2017

Aaron Courville

Papers citing "FiLM: Visual Reasoning with a General Conditioning Layer"

50 / 1,349 papers shown

Title
Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation Ria Doshi Homer Walke Oier Mees Sudeep Dasari Sergey Levine 140 59 0 21 Aug 2024
DisMix: Disentangling Mixtures of Musical Instruments for Source-level Pitch and Timbre Manipulation Yin-Jyun Luo K. Cheuk Woosung Choi Toshimitsu Uesaka Keisuke Toyama ... Chieh-Hsin Lai Yuhta Takida Wei-Hsiang Liao Simon Dixon Yuki Mitsufuji CoGe 106 2 0 20 Aug 2024
Hologram Reasoning for Solving Algebra Problems with Geometry Diagrams Litian Huang Xinguo Yu Feng Xiong Bin He Shengbing Tang Jiawen Fu 55 2 0 20 Aug 2024
Mitigating Degree Bias in Signed Graph Neural Networks Fang He Jinhai Deng Ruizhan Xue Maojun Wang Zeyu Zhang 74 3 0 16 Aug 2024
ViMo: Generating Motions from Casual Videos Liangdong Qiu Chengxing Yu Yanran Li Zhao Wang Haibin Huang Chongyang Ma Di Zhang Pengfei Wan Xiaoguang Han VGen 123 2 0 13 Aug 2024
FoVNet: Configurable Field-of-View Speech Enhancement with Low Computation and Distortion for Smart Glasses Zhongweiyang Xu Ali Aroudi Ke Tan Ashutosh Pandey Jung-Suk Lee Buye Xu Francesco Nesta 71 3 0 12 Aug 2024
MetMamba: Regional Weather Forecasting with Spatial-Temporal Mamba Model Haoyu Qin Yungang Chen Qianchuan Jiang Pengchao Sun Xiancai Ye Chao Lin Mamba AI4CE 80 1 0 12 Aug 2024
Semi-Supervised One-Shot Imitation Learning Philipp Wu Kourosh Hakhamaneshi Yuqing Du Igor Mordatch Aravind Rajeswaran Pieter Abbeel SSL 108 1 0 09 Aug 2024
Hyper Recurrent Neural Network: Condition Mechanisms for Black-box Audio Effect Modeling Yen-Tung Yeh Wen-Yi Hsiao Yi-Hsuan Yang 33 6 0 09 Aug 2024
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics Ruining Li Chuanxia Zheng Christian Rupprecht Andrea Vedaldi DiffM VGen 110 10 0 08 Aug 2024
Achieving Human Level Competitive Robot Table Tennis David B. DÁmbrosio Saminda Abeyruwan L. Graesser Atil Iscen H. B. Amor ... Vikas Sindhwani Vincent Vanhoucke Grace Vesom P. Xu Pannag R Sanketi 181 15 0 07 Aug 2024
Tora: Trajectory-oriented Diffusion Transformer for Video Generation Zhenghao Zhang Junchao Liao Menghao Li Zuozhuo Dai Bingxue Qiu Hao Hu Shaowei Cai Weizhi Wang VGen 179 57 0 31 Jul 2024
Efficient Pareto Manifold Learning with Low-Rank Structure Weiyu Chen James T. Kwok 83 8 0 30 Jul 2024
PianoMime: Learning a Generalist, Dexterous Piano Player from Internet Demonstrations Cheng Qian Julen Urain Kevin Zakka Jan Peters 64 5 0 25 Jul 2024
QueST: Self-Supervised Skill Abstractions for Learning Continuous Control Atharva Mete Haotian Xue Albert Wilcox Yongxin Chen Animesh Garg SSL 142 22 0 22 Jul 2024
Overview of Speaker Modeling and Its Applications: From the Lens of Deep Speaker Representation Learning Shuai Wang Zheng-Shou Chen Kong Aik Lee Yan-min Qian Haizhou Li 117 6 0 21 Jul 2024
Diff4VS: HIV-inhibiting Molecules Generation with Classifier Guidance Diffusion for Virtual Screening Jiaqing Lyu Changjie Chen Bing Liang Yijia Zhang 51 1 0 20 Jul 2024
Improved Esophageal Varices Assessment from Non-Contrast CT Scans Chunli Li Xiaoming Zhang Yuan Gao Xiaoli Yin Le Lu Ling Zhang Ke Yan Yu Shi 84 0 0 18 Jul 2024
Universal Sound Separation with Self-Supervised Audio Masked Autoencoder Junqi Zhao Xubo Liu Jinzheng Zhao Yiitan Yuan Qiuqiang Kong Mark D. Plumbley Wenwu Wang 75 4 0 16 Jul 2024
Target conversation extraction: Source separation using turn-taking dynamics Tuochao Chen Qirui Wang Bohan Wu Malek Itani Sefik Emre Eskimez Takuya Yoshioka Shyamnath Gollakota 78 6 0 15 Jul 2024
Towards zero-shot amplifier modeling: One-to-many amplifier modeling via tone embedding control Yu-Hua Chen Yen-Tung Yeh Yuan-Chiao Cheng Jui-Te Wu Yu-Hsiang Ho J. Jang Yi-Hsuan Yang 72 6 0 15 Jul 2024
Let Me DeCode You: Decoder Conditioning with Tabular Data Tomasz Szczepañski Michal K. Grzeszczyk Szymon Płotka Arleta Adamowicz Piotr Fudalej Przemysław Korzeniowski Tomasz Trzciñski Arkadiusz Sitek AI4CE 101 1 0 12 Jul 2024
OVExp: Open Vocabulary Exploration for Object-Oriented Navigation Meng Wei Tai Wang Yilun Chen Hanqing Wang Jiangmiao Pang Xihui Liu VLM 86 3 0 12 Jul 2024
Generative Image as Action Models Mohit Shridhar Yat Long Lo Stephen James 117 12 0 10 Jul 2024
InstructLayout: Instruction-Driven 2D and 3D Layout Synthesis with Semantic Graph Prior Chenguo Lin Yuchen Lin Panwang Pan Xuanyang Zhang Yadong Mu 3DV 114 2 0 10 Jul 2024
Knowledge boosting during low-latency inference Vidya Srinivas Malek Itani Tuochao Chen Sefik Emre Eskimez Takuya Yoshioka Shyamnath Gollakota 63 2 0 09 Jul 2024
AutoTask: Task Aware Multi-Faceted Single Model for Multi-Task Ads Relevance Shouchang Guo Sonam Damani Keng-hao Chang 55 0 0 09 Jul 2024
3D Vessel Graph Generation Using Denoising Diffusion Chinmay Prabhakar Suprosanna Shit Fabio Musio Kaiyuan Yang Tamaz Amiranashvili Johannes C. Paetzold Hongwei Bran Li Bjoern Menze DiffM MedIm 79 4 0 08 Jul 2024
Multimodal Classification via Modal-Aware Interactive Enhancement Qing-Yuan Jiang Zhouyang Chi Yang Yang 68 3 0 05 Jul 2024
EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning Jingyun Yang Zi-ang Cao Congyue Deng Rika Antonova Shuran Song Jeannette Bohg DiffM 118 38 0 01 Jul 2024
Language-Guided Object-Centric Diffusion Policy for Generalizable and Collision-Aware Robotic Manipulation Hang Li Qian Feng Zhi Zheng Jianxiang Feng Zhaopeng Chen Alois Knoll 80 1 0 29 Jun 2024
A Stem-Agnostic Single-Decoder System for Music Source Separation Beyond Four Stems Karn N. Watcharasupat Alexander Lerch 70 2 0 26 Jun 2024
Towards diffusion models for large-scale sea-ice modelling Tobias S. Finn Charlotte Durand A. Farchi Marc Bocquet J. Brajard 119 2 0 26 Jun 2024
Generative artificial intelligence in ophthalmology: multimodal retinal images for the diagnosis of Alzheimer's disease with convolutional neural networks I. R. Slootweg M. Thach K. Curro-Tafili F. D. Verbraak F. H. Bouwman Y. Pijnenburg J. F. Boer J.H.P de Kwisthout L. Bagheriye P. J. González MedIm DiffM 78 0 0 26 Jun 2024
Diffusion Model-Based Video Editing: A Survey Wenhao Sun Rong-Cheng Tu Jingyi Liao Dacheng Tao VGen 118 25 0 26 Jun 2024
Unified Auto-Encoding with Masked Diffusion Philippe Hansen-Estruch S. Vishwanath Amy Zhang Manan Tomar DiffM 93 1 0 25 Jun 2024
SpecMaskGIT: Masked Generative Modeling of Audio Spectrograms for Efficient Audio Synthesis and Beyond Marco Comunità Zhi-Wei Zhong Akira Takahashi Shiqi Yang Mengjie Zhao Koichi Saito Yukara Ikemiya Takashi Shibuya Shusuke Takahashi Yuki Mitsufuji 114 6 0 25 Jun 2024
Towards Efficient and Scalable Training of Differentially Private Deep Learning Sebastian Rodriguez Beltran Marlon Tobaben Niki Loppi Antti Honkela 66 3 0 25 Jun 2024
F-FOMAML: GNN-Enhanced Meta-Learning for Peak Period Demand Forecasting with Proxy Data Zexing Xu Linjun Zhang Sitan Yang Rasoul Etesami Hanghang Tong Huan Zhang Jiawei Han AI4TS 87 4 0 23 Jun 2024
Multimodal Multilabel Classification by CLIP Yanming Guo VLM 40 0 0 23 Jun 2024
Low Fidelity Visuo-Tactile Pretraining Improves Vision-Only Manipulation Performance Selam Gano Abraham George A. Farimani OnRL 115 1 0 21 Jun 2024
Learning Efficient and Robust Language-conditioned Manipulation using Textual-Visual Relevancy and Equivariant Language Mapping Mingxi Jia Haojie Huang Zhewen Zhang Chenghao Wang Linfeng Zhao Dian Wang J. Liu Robin Walters Robert Platt Stefanie Tellex LM&Ro 109 6 0 21 Jun 2024
CONMOD: Controllable Neural Frame-based Modulation Effects Gyubin Lee Hounsu Kim Junwon Lee Juhan Nam 60 0 0 20 Jun 2024
Articulatory Encodec: Coding Speech through Vocal Tract Kinematics Cheol Jun Cho Peter Wu Tejas S. Prabhune Dhruv Agarwal Gopala K. Anumanchipalli 110 8 0 18 Jun 2024
Improving Text-To-Audio Models with Synthetic Captions Zhifeng Kong Sang-gil Lee Deepanway Ghosal Navonil Majumder Ambuj Mehrish Rafael Valle Soujanya Poria Bryan Catanzaro 110 13 0 18 Jun 2024
Understanding Multi-Granularity for Open-Vocabulary Part Segmentation Jiho Choi Seonho Lee Seungho Lee Minhyun Lee Hyunjung Shim OCL 93 0 0 17 Jun 2024
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions Kai Xu Farid Tajaddodianfar Ben Allison 47 0 0 16 Jun 2024
CleanDiffuser: An Easy-to-use Modularized Library for Diffusion Models in Decision Making Zibin Dong Yifu Yuan Jianye Hao Fei Ni Yi Ma Pengyi Li Yan Zheng DiffM 99 17 0 13 Jun 2024
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models Qihao Liu Zhanpeng Zeng Ju He Qihang Yu Xiaohui Shen Liang-Chieh Chen 110 22 0 13 Jun 2024
Advancing Graph Generation through Beta Diffusion Yilin He Xinyang Liu Bo Chen Mingyuan Zhou DiffM 53 1 0 13 Jun 2024