v1v2 (latest)

FiLM: Visual Reasoning with a General Conditioning Layer

22 September 2017

Aaron Courville

Papers citing "FiLM: Visual Reasoning with a General Conditioning Layer"

50 / 1,349 papers shown

Title
End-to-end Streaming model for Low-Latency Speech Anonymization Waris Quamer Ricardo Gutierrez-Osuna 98 0 0 13 Jun 2024
TSE-PI: Target Sound Extraction under Reverberant Environments with Pitch Information Yiwen Wang Xihong Wu 75 2 0 13 Jun 2024
Meta-Learning Neural Procedural Biases Christian Raymond Qi Chen Bing Xue Mengjie Zhan 105 1 0 12 Jun 2024
Comparative Analysis of Personalized Voice Activity Detection Systems: Assessing Real-World Effectiveness Satyam Kumar Sai Srujana Buddi U. Sarawgi Vineet Garg Shivesh Ranjan Ognjen Rudovic Ahmed Hussen Abdelaziz Saurabh N. Adya 88 2 0 12 Jun 2024
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation Kai Wang Shijian Deng Jing Shi Dimitrios Hatzinakos Yapeng Tian VGen 124 11 0 11 Jun 2024
BAKU: An Efficient Transformer for Multi-Task Policy Learning Siddhant Haldar Zhuoran Peng Lerrel Pinto OffRL 114 43 0 11 Jun 2024
ICGAN: An implicit conditioning method for interpretable feature control of neural audio synthesis Yunyi Liu Craig Jin 69 0 0 11 Jun 2024
FlexLoc: Conditional Neural Networks for Zero-Shot Sensor Perspective Invariance in Object Localization with Distributed Multimodal Sensors Jason Wu Ziqi Wang Xiaomin Ouyang Ho Lyun Jeong Colin Samplawski Lance M. Kaplan Benjamin M. Marlin Mani Srivastava HAI 54 1 0 10 Jun 2024
Cometh: A continuous-time discrete-state graph diffusion model Antoine Siraudin Fragkiskos D. Malliaros Christopher Morris 76 6 0 10 Jun 2024
Compute Better Spent: Replacing Dense Layers with Structured Matrices Shikai Qiu Andres Potapczynski Marc Finzi Micah Goldblum Andrew Gordon Wilson 86 18 0 10 Jun 2024
Space-Time Continuous PDE Forecasting using Equivariant Neural Fields David M. Knigge David R. Wessels Riccardo Valperga Samuele Papa Jan-Jakob Sonke E. Gavves Erik J. Bekkers AI4CE 94 9 0 10 Jun 2024
Grounding Continuous Representations in Geometry: Equivariant Neural Fields David R. Wessels David M. Knigge Samuele Papa Riccardo Valperga Sharvaree P. Vadgama E. Gavves Erik J. Bekkers 146 10 0 09 Jun 2024
CityCraft: A Real Crafter for 3D City Generation Jie Deng Wenhao Chai Junsheng Huang Zhonghan Zhao Qixuan Huang ... Shengyu Hao Wenhao Hu Lei Li X. Li Gaoang Wang 87 13 0 07 Jun 2024
$Diffusion Models in $\textit{De Novo}$ Drug Design$ Diffusion Models in $\textit{De Novo}$ Drug Design Amira Alakhdar Barnabas Poczos Newell Washburn MedIm 100 27 0 07 Jun 2024
A Human-in-the-Loop Approach to Improving Cross-Text Prosody Transfer Himanshu Maurya A. Sigurgeirsson 63 0 0 06 Jun 2024
Vectorized Conditional Neural Fields: A Framework for Solving Time-dependent Parametric Partial Differential Equations Jan Hagnberger Marimuthu Kalimuthu Daniel Musekamp Mathias Niepert AI4TS AI4CE 98 5 0 06 Jun 2024
The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning Dulhan Jayalath Gilad Landau Brendan Shillingford M. Woolrich Oiwi Parker Jones SSL 135 7 0 06 Jun 2024
Wings: Learning Multimodal LLMs without Text-only Forgetting Yi-Kai Zhang Shiyin Lu Yang Li Yanqing Ma Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang De-Chuan Zhan Han-Jia Ye VLM 128 10 0 05 Jun 2024
Textless Acoustic Model with Self-Supervised Distillation for Noise-Robust Expressive Speech-to-Speech Translation Min-Jae Hwang Ilia Kulikov Benjamin Peloquin Hongyu Gong Peng-Jen Chen Ann Lee 63 3 0 04 Jun 2024
Operational Latent Spaces Scott H. Hawley Austin R. Tackett 61 0 0 04 Jun 2024
PDP: Physics-Based Character Animation via Diffusion Policy Takara E. Truong Michael Piseno Zhaoming Xie Chenxi Liu VGen 102 8 0 03 Jun 2024
Compositional 4D Dynamic Scenes Understanding with Physics Priors for Video Question Answering Xingrui Wang Wufei Ma Angtian Wang Shuo Chen Adam Kortylewski Alan Yuille 105 6 0 02 Jun 2024
Slight Corruption in Pre-training Data Makes Better Diffusion Models Hao Chen Yujin Han Diganta Misra Xiang Li Kai Hu Difan Zou Masashi Sugiyama Jindong Wang Bhiksha Raj DiffM 125 5 0 30 May 2024
Instruction-Guided Visual Masking Jinliang Zheng Jianxiong Li Si Cheng Yinan Zheng Jiaming Li Jihao Liu Yu Liu Jingjing Liu Xianyuan Zhan 136 7 0 30 May 2024
Empowering Embodied Manipulation: A Bimanual-Mobile Robot Manipulation Dataset for Household Tasks Tianle Zhang Dongjiang Li Yihang Li Zecui Zeng Lin Zhao ... Yue Chen Xuelong Wei Yibing Zhan Lusong Li Xiaodong He 111 7 0 29 May 2024
MOKD: Cross-domain Finetuning for Few-shot Classification via Maximizing Optimized Kernel Dependence Hongduan Tian Feng Liu Tongliang Liu Bo Du Yiu-ming Cheung Bo Han 77 1 0 29 May 2024
On the Limits of Multi-modal Meta-Learning with Auxiliary Task Modulation Using Conditional Batch Normalization Jordi Armengol-Estapé Vincent Michalski Ramnath Kumar P. St-Charles Doina Precup Samira Ebrahimi Kahou 143 0 0 29 May 2024
Improving global awareness of linkset predictions using Cross-Attentive Modulation tokens Félix Marcoccia C. Adjih P. Mühlethaler 82 0 0 28 May 2024
DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention Lianghui Zhu Zilong Huang Bencheng Liao Jun Hao Liew Hanshu Yan Jiashi Feng Xinggang Wang 138 17 0 28 May 2024
Simplicity Bias of Two-Layer Networks beyond Linearly Separable Data Nikita Tsoy Nikola Konstantinov 75 4 0 27 May 2024
Unisolver: PDE-Conditional Transformers Are Universal PDE Solvers Zhou Hang Yuezhou Ma Haixu Wu Haowen Wang Mingsheng Long AI4CE 79 11 0 27 May 2024
PTQ4DiT: Post-training Quantization for Diffusion Transformers Junyi Wu Haoxuan Wang Yuzhang Shang Mubarak Shah Yan Yan MQ 109 24 0 25 May 2024
Self-distilled Dynamic Fusion Network for Language-based Fashion Retrieval Yiming Wu Hangfei Li Fangfang Wang Yilong Zhang Ronghua Liang 28 3 0 24 May 2024
StyleMaster: Towards Flexible Stylized Image Generation with Diffusion Models Chengming Xu Kai Hu Donghao Luo Jiangning Zhang Wei Li Yanhao Ge Chengjie Wang DiffM 73 0 0 24 May 2024
Semantica: An Adaptable Image-Conditioned Diffusion Model Manoj Kumar N. Houlsby Emiel Hoogeboom DiffM VLM 103 0 0 23 May 2024
Defining error accumulation in ML atmospheric simulators R. Parthipan Mohit Anand Hannah M. Christensen J. S. Hosking Damon J. Wischik 39 1 0 23 May 2024
ArchesWeather: An efficient AI weather forecasting model at 1.5° resolution Guillaume Couairon Christian Lessig A. Charantonis C. Monteleoni 63 2 0 23 May 2024
TerDiT: Ternary Diffusion Models with Transformers Xudong Lu Aojun Zhou Ziyi Lin Qi Liu Yuhui Xu Renrui Zhang Yafei Wen Shuai Ren Peng Gao Junchi Yan MQ 122 3 0 23 May 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 335 54 0 23 May 2024
Rehearsal-free Federated Domain-incremental Learning Rui Sun Haoran Duan Jiahua Dong Varun Ojha Tejal Shah R. Ranjan CLL 139 1 0 22 May 2024
Computational Tradeoffs in Image Synthesis: Diffusion, Masked-Token, and Next-Token Prediction Maciej Kilian Varun Jampani Luke Zettlemoyer DiffM 88 8 0 21 May 2024
ASMR: Activation-sharing Multi-resolution Coordinate Networks For Efficient Inference Jason Chun Lok Li Steven Tin Sui Luo Le Xu Ngai Wong 78 4 0 20 May 2024
Octo: An Open-Source Generalist Robot Policy Octo Model Team Dibya Ghosh Homer Walke Karl Pertsch Kevin Black ... Quan Vuong Ted Xiao Dorsa Sadigh Chelsea Finn Sergey Levine 216 452 0 20 May 2024
Discrete-state Continuous-time Diffusion for Graph Generation Zhe Xu Ruizhong Qiu Yuzhong Chen Huiyuan Chen Xiran Fan Menghai Pan Zhichen Zeng Mahashweta Das Hanghang Tong 128 23 0 19 May 2024
CoLay: Controllable Layout Generation through Multi-conditional Latent Diffusion Chin-Yi Cheng Ruiqi Gao Forrest Huang Yang Li DiffM 72 2 0 18 May 2024
Natural Language Can Help Bridge the Sim2Real Gap Albert Yu Adeline Foote Raymond J. Mooney Roberto Martín-Martín LM&Ro 129 13 0 16 May 2024
Frequency-Domain Refinement with Multiscale Diffusion for Super Resolution Xingjian Wang Li Chai Jiming Chen 97 1 0 16 May 2024
A tunable binaural audio telepresence system capable of balancing immersive and enhanced modes Yicheng Hsu Mingsian R. Bai 56 1 0 14 May 2024
Improving Multimodal Learning with Multi-Loss Gradient Modulation Konstantinos Kontras Christos Chatzichristos Matthew Blaschko M. D. Vos 73 4 0 13 May 2024
CaFA: Global Weather Forecasting with Factorized Attention on Sphere Zijie Li Anthony Zhou Saurabh Patil A. Farimani 94 6 0 12 May 2024