A Challenge to Build Neuro-Symbolic Video Agents

20 May 2025

Sahil Shah

Harsh Goel

Sai Shankar Narasimhan

Papers citing "A Challenge to Build Neuro-Symbolic Video Agents"

27 / 27 papers shown

Title
Real-Time Privacy Preservation for Robot Visual Perception Minkyu Choi Yunhao Yang N. Bhatt Kushagra Gupta Sahil Shah Aditya Rai David Fridovich-Keil Ufuk Topcu Sandeep Chinchali 70 1 0 08 May 2025
We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback Minkyu Choi S P Sharan Harsh Goel Sahil Shah Sandeep Chinchali DiffM VGen 120 1 0 24 Apr 2025
Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification S P Sharan Minkyu Choi Sahil Shah Harsh Goel Mohammad Omama Sandeep Chinchali EGVM 131 3 0 22 Nov 2024
VideoAgent: Self-Improving Video Generation Achint Soni Sreyas Venkataraman Abhranil Chandra Sebastian Fischmeister Percy Liang Bo Dai Sherry Yang LM&Ro VGen 91 9 0 14 Oct 2024
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer Zhuoyi Yang Jiayan Teng Wendi Zheng Ming Ding Shiyu Huang ... Weihan Wang Yean Cheng Xiaotao Gu Yuxiao Dong Jie Tang DiffM VGen 203 507 0 12 Aug 2024
StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models Zhicheng Guo Sijie Cheng Hao Wang Shihao Liang Yujia Qin Peng Li Zhiyuan Liu Maosong Sun Yang Liu ELM 102 28 0 12 Mar 2024
Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation Joseph Cho Fachrina Dewi Puspitasari Sheng Zheng Jingyao Zheng Lik-Hang Lee Tae-Ho Kim Choong Seon Hong Chaoning Zhang EGVM VGen 64 42 0 08 Mar 2024
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models Shiwei Zhang Jiayu Wang Yingya Zhang Kang Zhao Hangjie Yuan Zhan Qin Xiang Wang Deli Zhao Jingren Zhou DiffM VGen 105 227 0 07 Nov 2023
Specification-Driven Video Search via Foundation Models and Formal Verification Yunhao Yang Jean-Raphael Gaglione Sandeep Chinchali Ufuk Topcu 70 6 0 18 Sep 2023
Large Language Models Michael R Douglas LLMAG LM&MA 127 625 0 11 Jul 2023
Gorilla: Large Language Model Connected with Massive APIs Shishir G. Patil Tianjun Zhang Xin Wang Joseph E. Gonzalez ELM CLL ALM SyDa 78 552 0 24 May 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.3K 14,313 0 15 Mar 2023
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 410 2,843 0 06 Oct 2022
Phenaki: Variable Length Video Generation From Open Domain Textual Description Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang M. Saffar Santiago Castro Julius Kunze D. Erhan DiffM VGen 117 389 0 05 Oct 2022
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 299 606 0 29 May 2022
ComPhy: Compositional Physical Reasoning of Objects and Events from Videos Zhenfang Chen Kexin Yi Yunzhu Li Mingyu Ding Antonio Torralba J. Tenenbaum Chuang Gan CoGe OCL 67 52 0 02 May 2022
Learning Audio-Video Modalities from Image Captions Arsha Nagrani Paul Hongsuck Seo Bryan Seybold Anja Hauth Santiago Manén Chen Sun Cordelia Schmid CLIP 55 85 0 01 Apr 2022
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 375 1,086 0 13 Oct 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 365 2,045 0 09 Feb 2021
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 561 18,008 0 19 Jun 2020
Scalability in Perception for Autonomous Driving: Waymo Open Dataset Pei Sun Henrik Kretzschmar Xerxes Dotiwalla Aurelien Chouard Vijaysai Patnaik ... Shuyang Cheng Yu Zhang Jonathon Shlens Zhifeng Chen Dragomir Anguelov 115 2,877 0 10 Dec 2019
A Graph-Based Framework to Bridge Movies and Synopses Yu Xiong Chengyi Zhang Lingfeng Guo Hang Zhou Bolei Zhou Dahua Lin 64 62 0 24 Oct 2019
Reinforcement Learning for Temporal Logic Control Synthesis with Probabilistic Satisfaction Guarantees Mohammadhosein Hasanbeig Y. Kantaros Alessandro Abate Daniel Kroening George J. Pappas Insup Lee AI4CE 103 152 0 11 Sep 2019
Video Classification with Channel-Separated Convolutional Networks Du Tran Heng Wang Lorenzo Torresani Matt Feiszli 3DV 61 586 0 04 Apr 2019
SlowFast Networks for Video Recognition Christoph Feichtenhofer Haoqi Fan Jitendra Malik Kaiming He 164 3,272 0 10 Dec 2018
Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding Kexin Yi Jiajun Wu Chuang Gan Antonio Torralba Pushmeet Kohli J. Tenenbaum NAI 84 608 0 04 Oct 2018
Convolutional Two-Stream Network Fusion for Video Action Recognition Christoph Feichtenhofer A. Pinz Andrew Zisserman 160 2,611 0 22 Apr 2016