AutoAD: Movie Description in Context

29 March 2023

Papers citing "AutoAD: Movie Description in Context"

37 / 37 papers shown

Title
Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation Junyu Xie Tengda Han Max Bain Arsha Nagrani Eshika Khandelwal Gül Varol Weidi Xie Andrew Zisserman DiffM VGen 61 0 0 01 Apr 2025
Fair Dynamic Spectrum Access via Fully Decentralized Multi-Agent Reinforcement Learning Yubo Zhang Pedro Botelho Trevor Gordon Gil Zussman I. Kadota 55 0 0 31 Mar 2025
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs Lucas Ventura Antoine Yang Cordelia Schmid Gül Varol 41 0 0 31 Mar 2025
Learning to Generate Long-term Future Narrations Describing Activities of Daily Living Ramanathan Rajendiran Debaditya Roy Basura Fernando VGen 46 0 0 03 Mar 2025
NowYouSee Me: Context-Aware Automatic Audio Description Seon-Ho Lee Jue Wang D. Fan Zhikang Zhang Linda Liu Xiang Hao Vimal Bhat Xinyu Li 93 0 0 13 Dec 2024
Progress-Aware Video Frame Captioning Zihui Xue Joungbin An Xitong Yang Kristen Grauman 100 1 0 03 Dec 2024
MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation Weijia Wu Mingyu Liu Zeyu Zhu Xi Xia Haoen Feng Wen Wang Kevin Qinghong Lin Chunhua Shen Mike Zheng Shou DiffM VGen 122 1 0 22 Nov 2024
StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification Yichen He Yuan Lin Jianchao Wu Hanchong Zhang Yuchen Zhang Ruicheng Le VGen VLM 177 2 0 11 Nov 2024
It's Just Another Day: Unique Video Captioning by Discriminative Prompting Toby Perrett Tengda Han Dima Damen Andrew Zisserman 19 3 0 15 Oct 2024
Character-aware audio-visual subtitling in context Jaesung Huh Andrew Zisserman 41 0 0 14 Oct 2024
Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM Yuanjie Lyu Tong Xu Zihan Niu Bo Peng Jing Ke Enhong Chen 28 0 0 14 Sep 2024
Learning Video Context as Interleaved Multimodal Sequences S. Shao Pengchuan Zhang Y. Li Xide Xia A. Meso Ziteng Gao Jinheng Xie N. Holliman Mike Zheng Shou 49 5 0 31 Jul 2024
AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description Junyu Xie Tengda Han Max Bain Arsha Nagrani Gül Varol Weidi Xie Andrew Zisserman VGen 41 8 0 22 Jul 2024
Multi-layer Learnable Attention Mask for Multimodal Tasks Wayner Barrios SouYoung Jin 39 0 0 04 Jun 2024
MICap: A Unified Model for Identity-aware Movie Descriptions Haran Raajesh Naveen Reddy Desanur Zeeshan Khan Makarand Tapaswi 35 4 0 19 May 2024
CinePile: A Long Video Question Answering Dataset and Benchmark Ruchit Rawal Khalid Saifullah Ronen Basri David Jacobs Gowthami Somepalli Tom Goldstein 43 40 0 14 May 2024
LLM-AD: Large Language Model based Audio Description System Peng Chu Jiang Wang Andre Abrantes 37 4 0 02 May 2024
Learning Long-form Video Prior via Generative Pre-Training Jinheng Xie Jiajun Feng Zhaoxu Tian Kevin Qinghong Lin Yawen Huang ... Nanxu Gong Xu Zuo Jiaqi Yang Yefeng Zheng Mike Zheng Shou 35 6 0 24 Apr 2024
AutoAD III: The Prequel -- Back to the Pixels Tengda Han Max Bain Arsha Nagrani Gül Varol Weidi Xie Andrew Zisserman VGen DiffM 47 20 0 22 Apr 2024
Streaming Dense Video Captioning Xingyi Zhou Anurag Arnab Shyamal Buch Shen Yan Austin Myers Xuehan Xiong Arsha Nagrani Cordelia Schmid VLM 44 33 0 01 Apr 2024
Contextual AD Narration with Interleaved Multimodal Sequence Hanlin Wang Zhan Tong Kecheng Zheng Yujun Shen Limin Wang VGen 57 4 0 19 Mar 2024
Visual Objectification in Films: Towards a New AI Task for Video Interpretation Julie Tores L. Sassatelli Hui-Yin Wu Clement Bergman Lea Andolfi ... F. Precioso Thierry Devars Magali Guaresi Virginie Julliard Sarah Lecossais 38 2 0 24 Jan 2024
Video Summarization: Towards Entity-Aware Captions Hammad A. Ayyubi Tianqi Liu Arsha Nagrani Xudong Lin Ruotong Wang Anurag Arnab Feng Han Yukun Zhu Jialu Liu Shih-Fu Chang 39 1 0 01 Dec 2023
MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning Chaoyi Zhang K. Lin Zhengyuan Yang Jianfeng Wang Linjie Li Chung-Ching Lin Zicheng Liu Lijuan Wang VGen 26 28 0 29 Nov 2023
Zero-shot audio captioning with audio-language model guidance and audio context keywords Leonard Salewski Stefan Fauth A. Sophia Koepke Zeynep Akata 32 10 0 14 Nov 2023
MM-VID: Advancing Video Understanding with GPT-4V(ision) Kevin Qinghong Lin Faisal Ahmed Linjie Li Chung-Ching Lin E. Azarnasab ... Lin Liang Zicheng Liu Yumao Lu Ce Liu Lijuan Wang MLLM 28 63 0 30 Oct 2023
AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description Tengda Han Max Bain Arsha Nagrani Gül Varol Weidi Xie Andrew Zisserman VGen DiffM 32 36 0 10 Oct 2023
Zero-Shot and Few-Shot Video Question Answering with Multi-Modal Prompts Bipin Rajendran Bashir M. Al-Hashimi MLLM VLM 32 2 0 27 Sep 2023
A Large-scale Dataset for Audio-Language Representation Learning Luoyi Sun Xuenan Xu Mengyue Wu Weidi Xie 34 20 0 20 Sep 2023
Text-Only Training for Image Captioning using Noise-Injected CLIP David Nukrai Ron Mokady Amir Globerson VLM CLIP 66 94 0 01 Nov 2022
A CLIP-Hitchhiker's Guide to Long Video Retrieval Max Bain Arsha Nagrani Gül Varol Andrew Zisserman CLIP 129 62 0 17 May 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 392 4,154 0 28 Jan 2022
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling Renrui Zhang Rongyao Fang Wei Zhang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 194 387 0 06 Nov 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 280 3,858 0 18 Apr 2021
Learning Interactions and Relationships between Movie Characters Anna Kukleva Makarand Tapaswi Ivan Laptev 41 51 0 29 Mar 2020
pyannote.audio: neural building blocks for speaker diarization H. Bredin Ruiqing Yin Juan Manuel Coria G. Gelly Pavel Korshunov Marvin Lavechin D. Fustes Hadrien Titeux Wassim Bouaziz Marie-Philippe Gill 197 313 0 04 Nov 2019
Neural Baby Talk Jiasen Lu Jianwei Yang Dhruv Batra Devi Parikh VLM 200 434 0 27 Mar 2018