MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations

17 October 2024

Yichao Yan

Xiaokang Yang

Papers citing "MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations"

46 / 46 papers shown

Title
Absolute Coordinates Make Motion Generation Easy Zichong Meng Zeyu Han Xiaogang Peng Yiming Xie Huaizu Jiang 129 0 0 26 May 2025
MotionScript: Natural Language Descriptions for Expressive 3D Human Motions Payam Jome Yazdian Eric Liu Li Cheng Angelica Lim Li Cheng Angelica Lim 60 10 0 19 Dec 2023
Kosmos-G: Generating Images in Context with Multimodal Large Language Models Xichen Pan Li Dong Shaohan Huang Zhiliang Peng Wenhu Chen Furu Wei VLM 108 67 0 04 Oct 2023
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition Pan Zhang Xiaoyi Wang Bin Wang Yuhang Cao Chao Xu ... Conghui He Xingcheng Zhang Yu Qiao Da Lin Jiaqi Wang MLLM 118 235 0 26 Sep 2023
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization Yang Jin Kun Xu Kun Xu Liwei Chen Chao Liao ... Xiaoqiang Lei Di Zhang Wenwu Ou Kun Gai Yadong Mu MLLM VLM 45 45 0 09 Sep 2023
Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset Jing Lin Ailing Zeng Shunlin Lu Yuan-Yuan Cai Ruimao Zhang Haoqian Wang L. Zhang VGen 67 118 0 03 Jul 2023
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding Yanzhe Zhang Ruiyi Zhang Jiuxiang Gu Yufan Zhou Nedim Lipka Diyi Yang Tongfei Sun VLM MLLM 74 232 0 29 Jun 2023
MotionGPT: Finetuned LLMs Are General-Purpose Motion Generators Yaqi Zhang Di Huang B. Liu Shixiang Tang Yan Lu Lu Chen Lei Bai Qi Chu Nenghai Yu Wanli Ouyang 115 101 0 19 Jun 2023
VideoLLM: Modeling Video Sequence with Large Language Models Guo Chen Yin-Dong Zheng Jiahao Wang Jilan Xu Yifei Huang ... Yi Wang Yali Wang Yu Qiao Tong Lu Limin Wang MLLM 118 83 0 22 May 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.2K 14,179 0 15 Mar 2023
FineDance: A Fine-grained Choreography Dataset for 3D Full Body Dance Generation Ronghui Li Junfan Zhao Yachao Zhang Mingyang Su Zeping Ren Han Zhang Yansong Tang Xiuhua Li DiffM 63 53 0 07 Dec 2022
Action-GPT: Leveraging Large-scale Language Models for Improved and Generalized Action Generation Sai Shashank Kalakonda Shubh Maheshwari Ravi Kiran Sarvadevabhatla 81 27 0 28 Nov 2022
Human Motion Diffusion Model Guy Tevet Sigal Raab Brian Gordon Yonatan Shafir Daniel Cohen-Or Amit H. Bermano DiffM VGen 260 753 0 29 Sep 2022
InterCap: Joint Markerless 3D Tracking of Humans and Objects in Interaction Yinghao Huang Omid Tehari Michael J. Black Amsterdam 160 63 0 26 Sep 2022
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model Mingyuan Zhang Zhongang Cai Liang Pan Fangzhou Hong Xinying Guo Lei Yang Ziwei Liu DiffM VGen 87 566 0 31 Aug 2022
TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of 3D Human Motions and Texts Chuan Guo Xinxin Xuo Sen Wang Li Cheng VGen 113 239 0 04 Jul 2022
Capturing and Inferring Dense Full-Body Human-Scene Contact C. Huang Hongwei Yi Markus Hoschle Matvey Safroshkin Tsvetelina Alexiadis Senya Polikovsky D. Scharstein Michael J. Black 3DH 73 125 0 20 Jun 2022
TEMOS: Generating diverse human motions from textual descriptions Mathis Petrovich Michael J. Black Gül Varol 93 385 0 25 Apr 2022
BEHAVE: Dataset and Method for Tracking Human Object Interactions Bharat Lal Bhatnagar Xianghui Xie Ilya A. Petrov C. Sminchisescu Christian Theobalt Gerard Pons-Moll 74 187 0 14 Apr 2022
Implicit Neural Representations for Variable Length Human Motion Generation Pablo Cervantes Yusuke Sekikawa Ikuro Sato Koichi Shinoda 55 59 0 25 Mar 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 498 4,324 0 28 Jan 2022
Playing for 3D Human Recovery Zhongang Cai Mingyuan Zhang Jiawei Ren Chen Wei Daxuan Ren Zhengyu Lin Haiyu Zhao Lei Yang Chen Change Loy Ziwei Liu 3DH 124 53 0 14 Oct 2021
BABEL: Bodies, Action and Behavior with English Labels Abhinanda R. Punnakkal Arjun Chandrasekaran Nikos Athanasiou Alejandra Quiros-Ramirez Michael J. Black Max Planck Institute for Intelligent Systems 57 217 0 17 Jun 2021
Action-Conditioned 3D Human Motion Synthesis with Transformer VAE Mathis Petrovich Michael J. Black Gül Varol ViT 88 502 0 12 Apr 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 820 29,167 0 26 Feb 2021
A Comprehensive Study of Deep Video Action Recognition Yi Zhu Xinyu Li Chunhui Liu Mohammadreza Zolfaghari Yuanjun Xiong Chongruo Wu Zhi-Li Zhang Joseph Tighe R. Manmatha Mu Li VLM AI4TS 61 186 0 11 Dec 2020
GRAB: A Dataset of Whole-Body Human Grasping of Objects Omid Taheri N. Ghorbani Michael J. Black Dimitrios Tzionas 3DH 55 378 0 25 Aug 2020
Action2Motion: Conditioned Generation of 3D Human Motions Chuan Guo Wei Ji Sen Wang Shihao Zou Qingyao Sun Annan Deng Minglun Gong Li Cheng 62 419 0 30 Jul 2020
Whole-Body Human Pose Estimation in the Wild Sheng Jin Lumin Xu Jin Xu Can Wang Wentao Liu Chao Qian Wanli Ouyang Ping Luo 3DH 174 246 0 23 Jul 2020
Long-term Human Motion Prediction with Scene Context Zhe Cao Hang Gao K. Mangalam Qi-Zhi Cai Minh Vo Jitendra Malik 3DH 90 250 0 07 Jul 2020
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 680 41,736 0 28 May 2020
FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding Dian Shao Yue Zhao Bo Dai Dahua Lin 55 328 0 14 Apr 2020
Multi-Moments in Time: Learning and Interpreting Models for Multi-Action Video Understanding Mathew Monfort Bowen Pan K. Ramakrishnan A. Andonian Barry A. McNamara A. Lascelles Quanfu Fan Dan Gutfreund Rogerio Feris A. Oliva VLM 76 68 0 01 Nov 2019
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Colin Raffel Noam M. Shazeer Adam Roberts Katherine Lee Sharan Narang Michael Matena Yanqi Zhou Wei Li Peter J. Liu AIMat 377 20,053 0 23 Oct 2019
Resolving 3D Human Pose Ambiguities with 3D Scene Constraints Mohamed Hassan Vasileios Choutas Dimitrios Tzionas Michael J. Black 3DH 68 294 0 20 Aug 2019
NTU RGB+D 120: A Large-Scale Benchmark for 3D Human Activity Understanding Jun Liu Amir Shahroudy Mauricio Perez G. Wang Ling-yu Duan Alex C. Kot 77 1,282 0 12 May 2019
SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing Taku Kudo John Richardson 178 3,514 0 19 Aug 2018
Moments in Time Dataset: one million videos for event understanding Mathew Monfort A. Andonian Bolei Zhou K. Ramakrishnan Sarah Adel Bargal ... L. Brown Quanfu Fan Dan Gutfreund Carl Vondrick A. Oliva 92 545 0 09 Jan 2018
Neural Discrete Representation Learning Aaron van den Oord Oriol Vinyals Koray Kavukcuoglu BDL SSL OCL 208 4,989 0 02 Nov 2017
AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions Chunhui Gu Chen Sun David A. Ross Carl Vondrick C. Pantofaru ... G. Toderici Susanna Ricco Rahul Sukthankar Cordelia Schmid Jitendra Malik VGen 101 1,028 0 23 May 2017
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset João Carreira Andrew Zisserman 219 7,989 0 22 May 2017
Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields Zhe Cao Tomas Simon S. Wei Yaser Sheikh 3DH 149 6,528 0 24 Nov 2016
The KIT Motion-Language Dataset Matthias Plappert Christian Mandery Tamim Asfour 230 285 0 13 Jul 2016
Hierarchical Deep Temporal Models for Group Activity Recognition Mostafa S. Ibrahim S. Muralidharan Zhiwei Deng Arash Vahdat Greg Mori 104 446 0 09 Jul 2016
Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding Gunnar Sigurdsson Gül Varol Xinyu Wang Ali Farhadi Ivan Laptev Abhinav Gupta VGen 92 1,245 0 06 Apr 2016
UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild K. Soomro Amir Zamir M. Shah CLIP VGen 131 6,134 0 03 Dec 2012