Learning to Compose Visual Relations

17 November 2021

Shuang Li

Antonio Torralba

Papers citing "Learning to Compose Visual Relations"

28 / 28 papers shown

Title
D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object Recognition Rupayan Mallick Sibo Dong Nataniel Ruiz Sarah Adel Bargal DiffM 49 0 0 08 Apr 2025
Synthetic Data is an Elegant GIFT for Continual Vision-Language Models Bin Wu Wuxuan Shi Jinqiao Wang Mang Ye CLL VLM 51 0 0 06 Mar 2025
Few-Shot Task Learning through Inverse Generative Modeling Aviv Netanyahu Yilun Du Antonia Bronars Jyothish Pari J. Tenenbaum Tianmin Shu Pulkit Agrawal 51 1 0 07 Nov 2024
Compositional Risk Minimization Divyat Mahajan Mohammad Pezeshki Ioannis Mitliagkas Kartik Ahuja Pascal Vincent Pascal Vincent 26 3 0 08 Oct 2024
Can Models Learn Skill Composition from Examples? Haoyu Zhao Simran Kaur Dingli Yu Anirudh Goyal Sanjeev Arora CoGe MoE 58 2 0 29 Sep 2024
TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation Weixi Feng Jiachen Li Michael Stephen Saxon Tsu-jui Fu Wenhu Chen William Yang Wang EGVM VGen 38 9 0 12 Jun 2024
Going beyond Compositions, DDPMs Can Produce Zero-Shot Interpolations Justin Deschenaux Igor Krawczuk Grigorios G. Chrysos V. Cevher DiffM 49 3 0 29 May 2024
Factorized Diffusion: Perceptual Illusions by Noise Decomposition Daniel Geng Inbum Park Andrew Owens DiffM 43 16 0 17 Apr 2024
Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions S. A. Baumann Felix Krause Michael Neumayr Nick Stracke Vincent Tao Hu Bjorn Ommer Björn Ommer DiffM LM&Ro 70 11 0 25 Mar 2024
Inferring Relational Potentials in Interacting Systems Armand Comas Massagu´e Yilun Du Christian Fernández S. Ghimire Octavia Camps J. Tenenbaum Mario Sznaier 34 4 0 23 Oct 2023
STUPD: A Synthetic Dataset for Spatial and Temporal Relation Reasoning Palaash Agrawal Haidi Azaman Cheston Tan 51 3 0 13 Sep 2023
DetermiNet: A Large-Scale Diagnostic Dataset for Complex Visually-Grounded Referencing using Determiners Clarence Lee M Ganesh Kumar Cheston Tan 28 3 0 07 Sep 2023
Probabilistic Adaptation of Text-to-Video Models Mengjiao Yang Yilun Du Bo Dai Dale Schuurmans J. Tenenbaum Pieter Abbeel VGen DiffM 43 24 0 02 Jun 2023
What You See is What You Read? Improving Text-Image Alignment Evaluation Michal Yarom Yonatan Bitton Soravit Changpinyo Roee Aharoni Jonathan Herzig Oran Lang E. Ofek Idan Szpektor EGVM 57 73 0 17 May 2023
Teaching CLIP to Count to Ten Roni Paiss Ariel Ephrat Omer Tov Shiran Zada Inbar Mosseri Michal Irani Tali Dekel VLM CLIP 34 89 0 23 Feb 2023
Changes from Classical Statistics to Modern Statistics and Data Science Kai Zhang Shan-Yu Liu M. Xiong 31 0 0 30 Oct 2022
Composing Ensembles of Pre-trained Models via Iterative Consensus Shuang Li Yilun Du J. Tenenbaum Antonio Torralba Igor Mordatch MoMe 19 23 0 20 Oct 2022
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering Hao Li Jinfa Huang Peng Jin Guoli Song Qi Wu Jie Chen 39 21 0 21 Sep 2022
Generative Visual Prompt: Unifying Distributional Control of Pre-Trained Generative Models Chen Henry Wu Saman Motamed Shaunak Srivastava Fernando de la Torre VLM DiffM 21 34 0 14 Sep 2022
Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models Huy Ha Shuran Song LM&Ro VLM 40 101 0 23 Jul 2022
Reasoning about Actions over Visual and Linguistic Modalities: A Survey Shailaja Keyur Sampat Maitreya Patel Subhasish Das Yezhou Yang Chitta Baral ReLM LM&Ro LRM 24 12 0 15 Jul 2022
Compositional Visual Generation with Composable Diffusion Models Nan Liu Shuang Li Yilun Du Antonio Torralba J. Tenenbaum DiffM CoGe 35 496 0 03 Jun 2022
ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension Sanjay Subramanian William Merrill Trevor Darrell Matt Gardner Sameer Singh Anna Rohrbach ObjD 24 125 0 12 Apr 2022
DT2I: Dense Text-to-Image Generation from Region Descriptions Stanislav Frolov Prateek Bansal Jörn Hees Andreas Dengel VLM 21 5 0 05 Apr 2022
VAEL: Bridging Variational Autoencoders and Probabilistic Logic Programming Eleonora Misino G. Marra Emanuele Sansone 18 21 0 07 Feb 2022
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,781 0 24 Feb 2021
Image Generation from Scene Graphs Justin Johnson Agrim Gupta Li Fei-Fei GNN 223 815 0 04 Apr 2018
Interaction Networks for Learning about Objects, Relations and Physics Peter W. Battaglia Razvan Pascanu Matthew Lai Danilo Jimenez Rezende Koray Kavukcuoglu AI4CE OCL PINN GNN 280 1,400 0 01 Dec 2016