LSTP: Language-guided Spatial-Temporal Prompt Learning for Long-form
Video-Text Understanding

LSTP: Language-guided Spatial-Temporal Prompt Learning for Long-form Video-Text Understanding

25 February 2024

Yuxuan Wang

Jianxin Liang

Dongyan Zhao

Papers citing "LSTP: Language-guided Spatial-Temporal Prompt Learning for Long-form Video-Text Understanding"

9 / 9 papers shown

Title
StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition Xin Ding Hao Wu Yuqing Yang Shiqi Jiang Donglin Bai Zhibo Chen Ting Cao 145 0 0 08 Mar 2025
MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing Kai Zhang Lingbo Mo Wenhu Chen Huan Sun Yu-Chuan Su EGVM 111 237 0 16 Jun 2023
Mutual Information-Based Temporal Difference Learning for Human Pose Estimation in Video Runyang Feng Yixing Gao Xueqi Ma Tze Ho Elden Tse H. Chang 3DH 41 21 0 15 Mar 2023
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark A. Kalyan ELM ReLM LRM 211 1,106 0 20 Sep 2022
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks Xiao Liu Kaixuan Ji Yicheng Fu Weng Lam Tam Zhengxiao Du Zhilin Yang Jie Tang VLM 238 806 0 14 Oct 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 280 3,848 0 18 Apr 2021
Making Pre-trained Language Models Better Few-shot Learners Tianyu Gao Adam Fisch Danqi Chen 241 1,919 0 31 Dec 2020
Language Models as Knowledge Bases? Fabio Petroni Tim Rocktaschel Patrick Lewis A. Bakhtin Yuxiang Wu Alexander H. Miller Sebastian Riedel KELM AI4MH 415 2,588 0 03 Sep 2019
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 297 10,220 0 16 Nov 2016