REGen: Multimodal Retrieval-Embedded Generation for Long-to-Short Video Editing

24 May 2025

Taylor Berg-Kirkpatrick

Papers citing "REGen: Multimodal Retrieval-Embedded Generation for Long-to-Short Video Editing"

27 / 27 papers shown

Title
One-Minute Video Generation with Test-Time Training Karan Dalal Daniel Koceja Gashon Hussein Jiarui Xu Yue Zhao ... Tatsunori Hashimoto Sanmi Koyejo Yejin Choi Yu Sun Xiaolong Wang ViT 128 9 0 07 Apr 2025
ScreenWriter: Automatic Screenplay Generation and Movie Summarisation Louis Mahon Mirella Lapata 47 3 0 17 Oct 2024
TeaserGen: Generating Teasers for Long Documentaries Weihan Xu Paul Pu Liang Haven Kim Julian McAuley Taylor Berg-Kirkpatrick Hao-Wen Dong VGen VLM DiffM 46 1 0 08 Oct 2024
Learning Fine-Grained Grounded Citations for Attributed Large Language Models Lei Huang Xiaocheng Feng Weitao Ma Yuxuan Gu Weihong Zhong ... Weijiang Yu Weihua Peng Duyu Tang Dandan Tu Bing Qin HILM 51 5 0 08 Aug 2024
Unveiling the Impact of Multi-Modal Interactions on User Engagement: A Comprehensive Evaluation in AI-driven Conversations Lichao Zhang Jia Yu Shuai Zhang Long Li Yangyang Zhong ... Fangsheng Weng Fayu Pan Jing Li Renjun Xu Zhenzhong Lan 124 5 0 21 Jun 2024
"Previously on ..." From Recaps to Story Summarization Aditya Kumar Singh Dhruv Srivastava Makarand Tapaswi 64 1 0 19 May 2024
Hallucination of Multimodal Large Language Models: A Survey Zechen Bai Pichao Wang Tianjun Xiao Tong He Zongbo Han Zheng Zhang Mike Zheng Shou VLM LRM 127 167 0 29 Apr 2024
Towards Automated Movie Trailer Generation Dawit Mureja Argaw Mattia Soldan Alejandro Pardo Chen Zhao Fabian Caba Heilbron Joon Son Chung Guohao Li ViT 90 6 0 04 Apr 2024
Scaling Up Video Summarization Pretraining with Large Language Models Dawit Mureja Argaw Seunghyun Yoon Fabian Caba Heilbron Hanieh Deilamsalehy Trung Bui Zhaowen Wang Franck Dernoncourt Joon Son Chung 53 10 0 04 Apr 2024
Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models Yuqing Liu Yu Wang Lichao Sun Philip S. Yu 67 9 0 13 Feb 2024
Hallucination is Inevitable: An Innate Limitation of Large Language Models Ziwei Xu Sanjay Jain Mohan S. Kankanhalli HILM LRM 97 235 0 22 Jan 2024
Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications Zhangyin Feng Weitao Ma Weijiang Yu Lei Huang Haotian Wang Qianglong Chen Weihua Peng Xiaocheng Feng Bing Qin Ting Liu KELM 44 39 0 10 Nov 2023
UniVTG: Towards Unified Video-Language Temporal Grounding Kevin Qinghong Lin Pengchuan Zhang Joya Chen Shraman Pramanick Difei Gao Alex Jinpeng Wang Rui Yan Mike Zheng Shou 57 117 0 31 Jul 2023
Evaluating Verifiability in Generative Search Engines Nelson F. Liu Tianyi Zhang Percy Liang HILM 64 240 0 19 Apr 2023
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment Yang Liu Dan Iter Yichong Xu Shuohang Wang Ruochen Xu Chenguang Zhu ELM ALM LM&MA 148 1,138 0 29 Mar 2023
VideoXum: Cross-modal Visual and Textural Summarization of Videos Jingyang Lin Hang Hua Ming Chen Yikang Li Jenhao Hsiao C. Ho Jiebo Luo 45 32 0 21 Mar 2023
Align and Attend: Multimodal Summarization with Dual Contrastive Losses Bo He Jun Wang Jielin Qiu Trung Bui Abhinav Shrivastava Zhaowen Wang 50 68 0 13 Mar 2023
WhisperX: Time-Accurate Speech Transcription of Long-Form Audio Max Bain Jaesung Huh Tengda Han Andrew Zisserman 73 228 0 01 Mar 2023
LLaMA: Open and Efficient Foundation Language Models Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux ... Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave Guillaume Lample ALM PILM 845 12,840 0 27 Feb 2023
Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models Bernd Bohnet Vinh Q. Tran Pat Verga Roee Aharoni D. Andor ... Michael Collins Dipanjan Das Donald Metzler Slav Petrov Kellie Webster 77 63 0 15 Dec 2022
Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides Dong Won Lee Chaitanya Ahuja Paul Pu Liang Sanika Natu Louis-Philippe Morency 100 8 0 17 Aug 2022
Survey of Hallucination in Natural Language Generation Ziwei Ji Nayeon Lee Rita Frieske Tiezheng Yu D. Su ... Delong Chen Wenliang Dai Ho Shu Chan Andrea Madotto Pascale Fung HILM LRM 179 2,327 0 08 Feb 2022
LaMDA: Language Models for Dialog Applications R. Thoppilan Daniel De Freitas Jamie Hall Noam M. Shazeer Apoorv Kulshreshtha ... Blaise Aguera-Arcas Claire Cui M. Croak Ed H. Chi Quoc Le ALM 105 1,577 0 20 Jan 2022
CLIP-It! Language-Guided Video Summarization Medhini Narasimhan Anna Rohrbach Trevor Darrell CLIP 57 116 0 01 Jul 2021
CLIPScore: A Reference-free Evaluation Metric for Image Captioning Jack Hessel Ari Holtzman Maxwell Forbes Ronan Le Bras Yejin Choi CLIP 86 1,512 0 18 Apr 2021
Dense Passage Retrieval for Open-Domain Question Answering Vladimir Karpukhin Barlas Oğuz Sewon Min Patrick Lewis Ledell Yu Wu Sergey Edunov Danqi Chen Wen-tau Yih RALM 143 3,676 0 10 Apr 2020
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension M. Lewis Yinhan Liu Naman Goyal Marjan Ghazvininejad Abdel-rahman Mohamed Omer Levy Veselin Stoyanov Luke Zettlemoyer AIMat VLM 148 10,720 0 29 Oct 2019