HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation

27 November 2024

Papers citing "HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation"

43 / 43 papers shown

Title
DyGEnc: Encoding a Sequence of Textual Scene Graphs to Reason and Answer Questions in Dynamic Scenes S. Linok Vadim Semenov Anastasia Trunova Oleg Bulichev Dmitry A. Yudin 81 0 0 06 May 2025
Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition Hao Fei Shengqiong Wu Wei Ji Hao Zhang Hao Fei Mong Li Lee Wynne Hsu LRM VGen 97 75 0 08 Jan 2025
VideoLLM-online: Online Video Large Language Model for Streaming Video Joya Chen Zhaoyang Lv Shiwei Wu Kevin Qinghong Lin Chenan Song Difei Gao Jia-Wei Liu Ziteng Gao Dongxing Mao Mike Zheng Shou MLLM MoMe 86 55 0 17 Jun 2024
CYCLO: Cyclic Graph Transformer Approach to Multi-Object Relationship Modeling in Aerial Videos Trong-Thuan Nguyen Pha Nguyen Xin Li Jackson Cothren Alper Yilmaz Khoa Luu 84 3 0 03 Jun 2024
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding Bo He Hengduo Li Young Kyun Jang Menglin Jia Xuefei Cao Ashish Shah Abhinav Shrivastava Ser-Nam Lim MLLM 107 96 0 08 Apr 2024
EGTR: Extracting Graph from Transformer for Scene Graph Generation Jinbae Im Jeongyeon Nam Nokyung Park Hyungmin Lee Seunghyun Park ViT 82 23 0 02 Apr 2024
From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models Rongjie Li Songyang Zhang Dahua Lin Kai-xiang Chen Xuming He VLM 75 18 0 01 Apr 2024
DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation Zeeshan Hayder Xuming He ViT 74 8 0 21 Mar 2024
Towards Scene Graph Anticipation Rohith Peddi Saksham Singh Saurabh Parag Singla Vibhav Gogate 88 4 0 07 Mar 2024
HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding Trong-Thuan Nguyen Pha Nguyen Khoa Luu 74 13 0 05 Dec 2023
Panoptic Video Scene Graph Generation Jingkang Yang Wen-Hsiao Peng Xiangtai Li Zujin Guo Liangyu Chen ... Zheng Ma Kaiyang Zhou Wayne Zhang Chen Change Loy Ziwei Liu VOS 91 43 0 28 Nov 2023
LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models Yanwei Li Chengyao Wang Jiaya Jia VLM MLLM 77 280 0 28 Nov 2023
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection Bin Lin Yang Ye Bin Zhu Jiaxi Cui Munan Ning Peng Jin Li-ming Yuan VLM MLLM 262 664 0 16 Nov 2023
Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding Peng Jin Ryuichi Takanobu Caiwan Zhang Xiaochun Cao Li-ming Yuan MLLM 88 239 0 14 Nov 2023
LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation Kibum Kim Kanghoon Yoon Jaeyeong Jeon Yeonjun In Jinyoung Moon Donghyun Kim Chanyoung Park 53 17 0 16 Oct 2023
Mistral 7B Albert Q. Jiang Alexandre Sablayrolles A. Mensch Chris Bamford Devendra Singh Chaplot ... Teven Le Scao Thibaut Lavril Thomas Wang Timothée Lacroix William El Sayed MoE LRM 68 2,192 0 10 Oct 2023
Accurate and Fast Compressed Video Captioning Yaojie Shen Xin Gu Kai Xu Hengrui Fan Longyin Wen Libo Zhang ViT 47 27 0 22 Sep 2023
Memory-and-Anticipation Transformer for Online Action Understanding Jiahao Wang Guo Chen Yifei Huang Liming Wang Tong Lu OffRL 115 40 0 15 Aug 2023
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding Enxin Song Wenhao Chai Guanhong Wang Yucheng Zhang Haoyang Zhou ... Tianbo Ye Yanting Zhang Yang Lu Lei Li Gaoang Wang VLM MLLM 68 285 0 31 Jul 2023
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models Muhammad Maaz H. Rasheed Salman Khan Fahad Shahbaz Khan MLLM 99 632 0 08 Jun 2023
CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion Guangyao Zhai Evin Pınar Örnek Shun-cheng Wu Yan Di F. Tombari Nassir Navab Benjamin Busam DiffM 55 14 0 25 May 2023
SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis Azade Farshad Yousef Yeganeh Yucong Chi Cheng-nan Shen Bjorn Ommer Nassir Navab DiffM 86 30 0 28 Apr 2023
Learning Situation Hyper-Graphs for Video Question Answering Aisha Urooj Khan Hilde Kuehne Bo Wu Kim Chheu Walid Bousselham Chuang Gan N. Lobo M. Shah 50 16 0 18 Apr 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 451 4,725 0 17 Apr 2023
Unbiased Scene Graph Generation in Videos Sayak Nag Kyle Min Subarna Tripathi Amit K. Roy-Chowdhury 49 31 0 03 Apr 2023
MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation Models Dohwan Ko Joon-Young Choi Hyeong Kyu Choi Kyoung-Woon On Byungseok Roh Hyunwoo J. Kim 85 21 0 23 Mar 2023
Iterative Scene Graph Generation with Generative Transformers Sanjoy Kundu Sathyanarayanan N. Aakur ViT 56 28 0 30 Nov 2022
Deep Hypergraph Structure Learning Zizhao Zhang Yifan Feng Shihui Ying Yue Gao 40 12 0 26 Aug 2022
Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning Tao He Lianli Gao Jingkuan Song Yuan-Fang Li VLM 68 52 0 17 Aug 2022
Panoptic Scene Graph Generation Jingkang Yang Yi Zhe Ang Zujin Guo Kaiyang Zhou Wayne Zhang Ziwei Liu 101 112 0 22 Jul 2022
Modeling Semantic Composition with Syntactic Hypergraph for Video Question Answering Zenan Xu Wanjun Zhong Qinliang Su Zijing Ou Fuwei Zhang 40 3 0 13 May 2022
Hierarchical Memory Learning for Fine-Grained Scene Graph Generation Youming Deng Yansheng Li Yongjun Zhang Xiang Xiang Jian Wang Jingdong Chen Jiayi Ma 64 22 0 14 Mar 2022
RelTR: Relation Transformer for Scene Graph Generation Yuren Cong M. Yang Bodo Rosenhahn ViT 125 144 0 27 Jan 2022
End-to-end Generative Pretraining for Multimodal Video Captioning Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid 68 168 0 20 Jan 2022
SGTR: End-to-end Scene Graph Generation with Transformer Rongjie Li Songyang Zhang Xuming He ViT 85 120 0 24 Dec 2021
Exploiting Long-Term Dependencies for Generating Dynamic Scene Graphs Shengyu Feng Subarna Tripathi Hesham Mostafa Marcel Nassar Somdeb Majumdar 49 26 0 18 Dec 2021
Target Adaptive Context Aggregation for Video Scene Graph Generation Yao Teng Limin Wang Zhifeng Li Gangshan Wu 72 64 0 18 Aug 2021
Spatial-Temporal Transformer for Dynamic Scene Graph Generation Yuren Cong Wentong Liao H. Ackermann Bodo Rosenhahn M. Yang ViT 33 127 0 26 Jul 2021
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 383 10,301 0 17 Jun 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 861 29,341 0 26 Feb 2021
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 596 40,961 0 22 Oct 2020
Action Genome: Actions as Composition of Spatio-temporal Scene Graphs Jingwei Ji Ranjay Krishna Li Fei-Fei Juan Carlos Niebles 68 344 0 15 Dec 2019
Hypergraph Convolution and Hypergraph Attention S. Bai Feihu Zhang Philip Torr GNN 69 624 0 23 Jan 2019