Style-transfer based Speech and Audio-visual Scene Understanding for Robot Action Sequence Acquisition from Videos

27 June 2023

Siddarth Jain

Papers citing "Style-transfer based Speech and Audio-visual Scene Understanding for Robot Action Sequence Acquisition from Videos"

3 / 3 papers shown

Title
SAMJAM: Zero-Shot Video Scene Graph Generation for Egocentric Kitchen Videos Joshua Li Fernando Jose Pena Cantu Emily Yu A. Wong Yuchen Cui Yuhao Chen VLM 39 0 0 10 Apr 2025
Omnivore: A Single Model for Many Visual Modalities Rohit Girdhar Mannat Singh Nikhil Ravi L. V. D. van der Maaten Armand Joulin Ishan Misra 229 226 0 20 Jan 2022
Dynamic Movement Primitives in Robotics: A Tutorial Survey Matteo Saveriano Fares J. Abu-Dakka Aljaz Kramberger L. Peternel 40 164 0 07 Feb 2021