v1v2 (latest)

Learning to Visually Connect Actions and their Effects

19 January 2024

Papers citing "Learning to Visually Connect Actions and their Effects"

42 / 42 papers shown

Title
STAR: A Benchmark for Situated Reasoning in Real-World Videos Bo Wu Shoubin Yu Zhenfang Chen Joshua B. Tenenbaum Chuang Gan 122 194 0 15 May 2024
MVBench: A Comprehensive Multi-modal Video Understanding Benchmark Kunchang Li Yali Wang Yinan He Yizhuo Li Yi Wang ... Jilan Xu Guo Chen Ping Luo Limin Wang Yu Qiao VLM MLLM 141 493 0 28 Nov 2023
Action Anticipation with Goal Consistency Olga Zatsarynna Juergen Gall 88 10 0 26 Jun 2023
Temporal Action Segmentation: An Analysis of Modern Techniques Guodong Ding Fadime Sener Angela Yao 91 79 0 19 Oct 2022
Action Quality Assessment with Temporal Parsing Transformer Yang Bai Desen Zhou Songyang Zhang Jian Wang Errui Ding Yu Guan Yang Long Jingdong Wang ViT 55 41 0 19 Jul 2022
Visual Abductive Reasoning Chen Liang Wenguan Wang Tianfei Zhou Yi Yang LRM 81 38 0 26 Mar 2022
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training Zhan Tong Yibing Song Jue Wang Limin Wang ViT 224 1,191 0 23 Mar 2022
Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web Videos Tomávs Souvcek Jean-Baptiste Alayrac Antoine Miech Ivan Laptev Josef Sivic 64 33 0 22 Mar 2022
Domain Knowledge-Informed Self-Supervised Representations for Workout Form Assessment Paritosh Parmar Amol Gharat Helge Rhodin 3DH SSL 48 20 0 28 Feb 2022
The Abduction of Sherlock Holmes: A Dataset for Visual Abductive Reasoning Jack Hessel Jena D. Hwang Jinho Park Rowan Zellers Chandra Bhagavatula Anna Rohrbach Kate Saenko Yejin Choi ReLM 194 51 0 10 Feb 2022
TCGL: Temporal Contrastive Graph for Self-supervised Video Representation Learning Yang Liu Keze Wang Lingbo Liu Hao Lan Liang Lin SSL AI4TS 102 113 0 07 Dec 2021
Hierarchical Modeling for Task Recognition and Action Segmentation in Weakly-Labeled Instructional Videos Reza Ghoddoosian S. Sayed V. Athitsos 57 15 0 12 Oct 2021
Video Swin Transformer Ze Liu Jia Ning Yue Cao Yixuan Wei Zheng Zhang Stephen Lin Han Hu ViT 106 1,482 0 24 Jun 2021
Barlow Twins: Self-Supervised Learning via Redundancy Reduction Jure Zbontar Li Jing Ishan Misra Yann LeCun Stéphane Deny SSL 317 2,347 0 04 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 929 29,436 0 26 Feb 2021
Transformation Driven Visual Reasoning Xin Hong Yanyan Lan Liang Pang Jiafeng Guo Xueqi Cheng LRM 50 22 0 26 Nov 2020
Self-supervised Video Representation Learning by Uncovering Spatio-temporal Statistics Jiangliu Wang Jianbo Jiao Linchao Bao Shengfeng He Wei Liu Yunhui Liu SSL AI4TS 45 55 0 31 Aug 2020
Self-supervised Video Representation Learning by Pace Prediction Jiangliu Wang Jianbo Jiao Yunhui Liu SSL AI4TS 71 235 0 13 Aug 2020
Memory-augmented Dense Predictive Coding for Video Representation Learning Tengda Han Weidi Xie Andrew Zisserman SSL 91 242 0 03 Aug 2020
Video Representation Learning by Recognizing Temporal Transformations Simon Jenni Givi Meishvili Paolo Favaro 183 135 0 21 Jul 2020
Video Playback Rate Perception for Self-supervisedSpatio-Temporal Representation Learning Yuan Yao Chang-rui Liu Dezhao Luo Yu Zhou QiXiang Ye 58 170 0 20 Jun 2020
SpeedNet: Learning the Speediness in Videos Sagie Benaim Ariel Ephrat Oran Lang Inbar Mosseri William T. Freeman Michael Rubinstein Michal Irani Tali Dekel 69 260 0 13 Apr 2020
A Simple Framework for Contrastive Learning of Visual Representations Ting-Li Chen Simon Kornblith Mohammad Norouzi Geoffrey E. Hinton SSL 369 18,778 0 13 Feb 2020
Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning Dezhao Luo Chang-rui Liu Yu Zhou Dongbao Yang Can Ma QiXiang Ye Weiping Wang SSL 61 161 0 02 Jan 2020
PyTorch: An Imperative Style, High-Performance Deep Learning Library Adam Paszke Sam Gross Francisco Massa Adam Lerer James Bradbury ... Sasank Chilamkurthy Benoit Steiner Lu Fang Junjie Bai Soumith Chintala ODL 520 42,449 0 03 Dec 2019
Momentum Contrast for Unsupervised Visual Representation Learning Kaiming He Haoqi Fan Yuxin Wu Saining Xie Ross B. Girshick SSL 204 12,085 0 13 Nov 2019
CATER: A diagnostic dataset for Compositional Actions and TEmporal Reasoning Rohit Girdhar Deva Ramanan 69 178 0 10 Oct 2019
What and How Well You Performed? A Multitask Learning Approach to Action Quality Assessment Paritosh Parmar B. Morris 58 151 0 08 Apr 2019
COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis Yansong Tang Dajun Ding Yongming Rao Yu Zheng Danyang Zhang Lili Zhao Jiwen Lu Jie Zhou 125 315 0 07 Mar 2019
Action Quality Assessment Across Multiple Actions Paritosh Parmar B. Morris 58 120 0 15 Dec 2018
Learning to Describe Differences Between Pairs of Similar Images Harsh Jhamtani Taylor Berg-Kirkpatrick 62 153 0 31 Aug 2018
Simple Baselines for Human Pose Estimation and Tracking Bin Xiao Haiping Wu Yichen Wei 3DH VOT 121 1,792 0 17 Apr 2018
The "something something" video database for learning and evaluating visual common sense Raghav Goyal Samira Ebrahimi Kahou Vincent Michalski Joanna Materzynska S. Westphal ... Moritz Mueller-Freitag F. Hoppe Christian Thurau Ingo Bax Roland Memisevic VLM 87 1,535 0 13 Jun 2017
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset João Carreira Andrew Zisserman 235 8,019 0 22 May 2017
Action Tubelet Detector for Spatio-Temporal Action Localization Vicky Kalogeiton Philippe Weinzaepfel V. Ferrari Cordelia Schmid 66 325 0 04 May 2017
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning Justin Johnson B. Hariharan Laurens van der Maaten Li Fei-Fei C. L. Zitnick Ross B. Girshick CoGe 304 2,378 0 20 Dec 2016
Self-Supervised Video Representation Learning With Odd-One-Out Networks Basura Fernando Hakan Bilen E. Gavves Stephen Gould SSL 44 450 0 21 Nov 2016
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization Ramprasaath R. Selvaraju Michael Cogswell Abhishek Das Ramakrishna Vedantam Devi Parikh Dhruv Batra FAtt 318 20,023 0 07 Oct 2016
Actions ~ Transformations Xinyu Wang Ali Farhadi Abhinav Gupta 66 234 0 02 Dec 2015
Bilinear CNNs for Fine-grained Visual Recognition Tsung-Yu Lin Aruni RoyChowdhury Subhransu Maji 133 1,875 0 29 Apr 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 1.9K 150,115 0 22 Dec 2014
UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild K. Soomro Amir Zamir M. Shah CLIP VGen 155 6,162 0 03 Dec 2012