OSCaR: Object State Captioning and State Change Representation

OSCaR: Object State Captioning and State Change Representation

27 February 2024

Papers citing "OSCaR: Object State Captioning and State Change Representation"

11 / 11 papers shown

Title
Llamarine: Open-source Maritime Industry-specific Large Language Model William Nguyen An Phan Konobu Kimura Hitoshi Maeno Mika Tanaka Quynh Le William Poucher Christopher Nguyen LRM 33 0 0 28 Feb 2025
Progress-Aware Video Frame Captioning Zihui Xue Joungbin An Xitong Yang Kristen Grauman 100 1 0 03 Dec 2024
Efficiently Leveraging Linguistic Priors for Scene Text Spotting Nguyen Nguyen Yapeng Tian Chenliang Xu 49 1 0 27 Feb 2024
LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event Boundary Captioning Yunlong Tang Jinrui Zhang Xiangchen Wang Teng Wang Feng Zheng VLM 70 9 0 17 Jun 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 208 900 0 27 Apr 2023
Manipulate by Seeing: Creating Manipulation Controllers from Pre-Trained Representations Jianren Wang Sudeep Dasari Mohan Kumar Srirama Shubham Tulsiani Abhi Gupta SSL 58 15 0 14 Mar 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 281 4,244 0 30 Jan 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 328 11,953 0 04 Mar 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 392 4,137 0 28 Jan 2022
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 244 1,024 0 13 Oct 2021
Procedure Planning in Instructional Videos via Contextual Modeling and Model-based Policy Learning Jing Bi Jiebo Luo Chenliang Xu 76 48 0 05 Oct 2021