GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts

8 April 2024

Papers citing "GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts"

43 / 43 papers shown

Title
OpenScene: 3D Scene Understanding with Open Vocabularies Songyou Peng Kyle Genova ChiyuMaxJiang Andrea Tagliasacchi Marc Pollefeys Thomas Funkhouser 3DPC VLM 98 366 0 28 Nov 2022
Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP Feng Liang Bichen Wu Xiaoliang Dai Kunpeng Li Yinan Zhao Hang Zhang Peizhao Zhang Peter Vajda Diana Marculescu CLIP VLM 102 457 0 09 Oct 2022
Imagen Video: High Definition Video Generation with Diffusion Models Jonathan Ho William Chan Chitwan Saharia Jay Whang Ruiqi Gao ... Diederik P. Kingma Ben Poole Mohammad Norouzi David J. Fleet Tim Salimans VGen 162 1,540 0 05 Oct 2022
DreamFusion: Text-to-3D using 2D Diffusion Ben Poole Ajay Jain Jonathan T. Barron B. Mildenhall 170 2,433 0 29 Sep 2022
Human Motion Diffusion Model Guy Tevet Sigal Raab Brian Gordon Yonatan Shafir Daniel Cohen-Or Amit H. Bermano DiffM VGen 270 767 0 29 Sep 2022
Make-A-Video: Text-to-Video Generation without Text-Video Data Uriel Singer Adam Polyak Thomas Hayes Xiaoyue Yin Jie An ... Oron Ashual Oran Gafni Devi Parikh Sonal Gupta Yaniv Taigman DiffM VGen 83 1,428 0 29 Sep 2022
TEACH: Temporal Action Composition for 3D Humans Nikos Athanasiou Mathis Petrovich Michael J. Black Gül Varol 139 147 0 09 Sep 2022
FLAME: Free-form Language-based Motion Synthesis & Editing Jihoon Kim Jiseob Kim Sungjoon Choi VGen 93 213 0 01 Sep 2022
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model Mingyuan Zhang Zhongang Cai Liang Pan Fangzhou Hong Xinying Guo Lei Yang Ziwei Liu DiffM VGen 112 577 0 31 Aug 2022
AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars Fangzhou Hong Mingyuan Zhang Liang Pan Zhongang Cai Lei Yang Ziwei Liu CLIP 133 83 0 17 May 2022
TEMOS: Generating diverse human motions from textual descriptions Mathis Petrovich Michael J. Black Gül Varol 128 389 0 25 Apr 2022
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 413 6,908 0 13 Apr 2022
Implicit Neural Representations for Variable Length Human Motion Generation Pablo Cervantes Yusuke Sekikawa Ikuro Sato Koichi Shinoda 76 60 0 25 Mar 2022
MotionCLIP: Exposing Human Motion Generation to CLIP Space Guy Tevet Brian Gordon Amir Hertz Amit H. Bermano Daniel Cohen-Or CLIP 125 345 0 15 Mar 2022
A Survey of Vision-Language Pre-Trained Models Yifan Du Zikang Liu Junyi Li Wayne Xin Zhao VLM 117 187 0 18 Feb 2022
Language-driven Semantic Segmentation Boyi Li Kilian Q. Weinberger Serge Belongie V. Koltun René Ranftl VLM 122 625 0 10 Jan 2022
Scaling Open-Vocabulary Image Segmentation with Image-Level Labels Golnaz Ghiasi Xiuye Gu Huayu Chen Nayeon Lee VLM 124 386 0 22 Dec 2021
Blended Diffusion for Text-driven Editing of Natural Images Omri Avrahami Dani Lischinski Ohad Fried DiffM 123 954 0 29 Nov 2021
Stochastic Scene-Aware Motion Prediction Mohamed Hassan Duygu Ceylan Ruben Villegas Jun Saito Jimei Yang Yi Zhou Michael J. Black VGen 59 179 0 18 Aug 2021
StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators Rinon Gal Or Patashnik Haggai Maron Gal Chechik Daniel Cohen-Or CLIP VLM 83 225 0 02 Aug 2021
CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image Encoders Kevin Frans Lisa Soros Olaf Witkowski CLIP 87 212 0 28 Jun 2021
BABEL: Bodies, Action and Behavior with English Labels Abhinanda R. Punnakkal Arjun Chandrasekaran Nikos Athanasiou Alejandra Quiros-Ramirez Michael J. Black Max Planck Institute for Intelligent Systems 69 218 0 17 Jun 2021
Action-Conditioned 3D Human Motion Synthesis with Transformer VAE Mathis Petrovich Michael J. Black Gül Varol ViT 104 505 0 12 Apr 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 418 4,996 0 24 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 459 3,893 0 11 Feb 2021
We are More than Our Joints: Predicting how 3D Bodies Move Yan Zhang Michael J. Black Siyu Tang 3DH 82 131 0 01 Dec 2020
Open-Vocabulary Object Detection Using Captions Alireza Zareian Kevin Dela Rosa Derek Hao Hu Shih-Fu Chang VLM ObjD 130 433 0 20 Nov 2020
Point Transformer Nico Engel Vasileios Belagiannis Klaus C. J. Dietmayer 3DPC 181 2,003 0 02 Nov 2020
GRAB: A Dataset of Whole-Body Human Grasping of Objects Omid Taheri N. Ghorbani Michael J. Black Dimitrios Tzionas 3DH 73 381 0 25 Aug 2020
Action2Motion: Conditioned Generation of 3D Human Motions Chuan Guo Wei Ji Sen Wang Shihao Zou Qingyao Sun Annan Deng Minglun Gong Li Cheng 76 420 0 30 Jul 2020
Long-term Human Motion Prediction with Scene Context Zhe Cao Hang Gao K. Mangalam Qi-Zhi Cai Minh Vo Jitendra Malik 3DH 102 251 0 07 Jul 2020
OccuSeg: Occupancy-aware 3D Instance Segmentation Lei Han Tian Zheng Lan Xu Lu Fang 3DPC 244 260 0 14 Mar 2020
Generating 3D People in Scenes without People Yan Zhang Mohamed Hassan Heiko Neumann Michael J. Black Siyu Tang 3DH 81 152 0 05 Dec 2019
Resolving 3D Human Pose Ambiguities with 3D Scene Constraints Mohamed Hassan Vasileios Choutas Dimitrios Tzionas Michael J. Black 3DH 76 297 0 20 Aug 2019
4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks Chris Choy JunYoung Gwak Silvio Savarese 3DPC 167 1,792 0 18 Apr 2019
Expressive Body Capture: 3D Hands, Face, and Body from a Single Image Georgios Pavlakos Vasileios Choutas N. Ghorbani Timo Bolkart Ahmed A. A. Osman Dimitrios Tzionas Michael J. Black 3DH 55 1,725 0 11 Apr 2019
Human Motion Modeling using DVGANs Xiaoyu Lin Mohamed R. Amer 71 75 0 27 Apr 2018
HP-GAN: Probabilistic 3D human motion prediction via GAN Emad Barsoum J. Kender Zicheng Liu 3DH 86 331 0 27 Nov 2017
A simple yet effective baseline for 3d human pose estimation Julieta Martinez Rayat Hossain Javier Romero James J. Little 3DH 103 1,319 0 08 May 2017
A Structured Self-attentive Sentence Embedding Zhouhan Lin Minwei Feng Cicero Nogueira dos Santos Mo Yu Bing Xiang Bowen Zhou Yoshua Bengio 115 2,141 0 09 Mar 2017
ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes Angela Dai Angel X. Chang Manolis Savva Maciej Halber Thomas Funkhouser Matthias Nießner 3DPC 3DV 489 4,081 0 14 Feb 2017
3D Human Pose Estimation = 2D Pose Estimation + Matching Ching-Hang Chen Deva Ramanan 3DH 92 534 0 20 Dec 2016
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation Kyunghyun Cho B. V. Merrienboer Çağlar Gülçehre Dzmitry Bahdanau Fethi Bougares Holger Schwenk Yoshua Bengio AIMat 1.1K 23,388 0 03 Jun 2014