Title
EgoAdapt: A multi-stream evaluation study of adaptation to real-world egocentric user video Matthias De Lange H. Eghbalzadeh Reuben Tan Michael L. Iuzzolino Franziska Meier Karl Ridgeway EgoV 21 1 0 11 Jul 2023
EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone Shraman Pramanick Yale Song Sayan Nag Kevin Qinghong Lin Hardik Shah Mike Zheng Shou Ramalingam Chellappa Pengchuan Zhang VLM 39 89 0 11 Jul 2023
Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos Sagnik Majumder Ziad Al-Halah Kristen Grauman SSL EgoV 36 4 0 10 Jul 2023
SVIT: Scaling up Visual Instruction Tuning Bo Zhao Boya Wu Muyang He Tiejun Huang MLLM 36 119 0 09 Jul 2023
Polybot: Training One Policy Across Robots While Embracing Variability Jonathan Yang Dorsa Sadigh Chelsea Finn 21 34 0 07 Jul 2023
Decomposing the Generalization Gap in Imitation Learning for Visual Robotic Manipulation Annie Xie Lisa Lee Ted Xiao Chelsea Finn 25 55 0 07 Jul 2023
SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained Networks Xingyu Lin John So Sashwat Mahalingam Fangchen Liu Pieter Abbeel SSL 30 22 0 07 Jul 2023
Technical Report for Ego4D Long Term Action Anticipation Challenge 2023 Tatsuya Ishibashi Kosuke Ono Noriyuki Kugo Yuji Sato 14 5 0 04 Jul 2023
Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control Vivek Myers Andre Wang He Kuan Fang Homer Walke Philippe Hansen-Estruch Ching-An Cheng Mihai Jalobeanu Andrey Kolobov Anca Dragan Sergey Levine LM&Ro 27 29 0 30 Jun 2023
QuAVF: Quality-aware Audio-Visual Fusion for Ego4D Talking to Me Challenge Hsi-Che Lin Chien-Yi Wang Min-Hung Chen Szu-Wei Fu Y. Wang 15 2 0 30 Jun 2023
EgoCOL: Egocentric Camera pose estimation for Open-world 3D object Localization @Ego4D challenge 2023 Cristhian Forigua María Escobar Jordi Pont-Tuset Kevis-Kokitsi Maninis Pablo Arbelaez EgoV 25 1 0 29 Jun 2023
Palm: Predicting Actions through Language Models @ Ego4D Long-Term Action Anticipation Challenge 2023 Daoji Huang Otmar Hilliges Luc Van Gool Xi Wang LRM 30 13 0 28 Jun 2023
GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 Zhijian Hou Lei Ji Difei Gao Wanjun Zhong Kun Yan Chong Li W. Chan Chong-Wah Ngo Nan Duan Mike Zheng Shou 22 15 0 27 Jun 2023
ViNT: A Foundation Model for Visual Navigation Dhruv Shah A. Sridhar Nitish Dashora Kyle Stachowicz Kevin Black Noriaki Hirose Sergey Levine LM&Ro 27 133 0 26 Jun 2023
The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios Samuele Cornell Matthew Wiesner Shinji Watanabe Desh Raj Xuankai Chang ... Matthew Maciejewski Yoshiki Masuyama Zhong-Qiu Wang S. Squartini Sanjeev Khudanpur 24 51 0 23 Jun 2023
First Place Solution to the CVPR'2023 AQTC Challenge: A Function-Interaction Centric Approach with Spatiotemporal Visual-Language Alignment Tom Tongjia Chen Hongshan Yu Zhengeng Yang Ming Li Zechuan Li Jingwen Wang Wei Miao Wei Sun Chen Chen 24 2 0 23 Jun 2023
STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization Kyle Min 37 5 0 18 Jun 2023
Robot Learning with Sensorimotor Pre-training Ilija Radosavovic Baifeng Shi Letian Fu Ken Goldberg Trevor Darrell Jitendra Malik SSL LM&Ro 19 46 0 16 Jun 2023
FedMultimodal: A Benchmark For Multimodal Federated Learning Tiantian Feng Digbalay Bose Tuo Zhang Rajat Hebbar Anil Ramakrishna Rahul Gupta Mi Zhang Salman Avestimehr Shrikanth Narayanan 34 48 0 15 Jun 2023
Single-Stage Visual Query Localization in Egocentric Videos Hanwen Jiang Santhosh Kumar Ramakrishnan Kristen Grauman 31 13 0 15 Jun 2023
Action Sensitivity Learning for the Ego4D Episodic Memory Challenge 2023 Jiayi Shao Xiaohan Wang Ruijie Quan Yezhou Yang EgoV 27 8 0 15 Jun 2023
EPIC Fields: Marrying 3D Geometry and Video Understanding Vadim Tschernezki Ahmad Darkhalil Zhifan Zhu David Fouhey Iro Laina Diane Larlus Dima Damen Andrea Vedaldi EgoV 40 30 0 14 Jun 2023
What can a cook in Italy teach a mechanic in India? Action Recognition Generalisation Over Scenarios and Locations Chiara Plizzari Toby Perrett Barbara Caputo Dima Damen EgoV 21 16 0 14 Jun 2023
AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn Difei Gao Lei Ji Luowei Zhou Kevin Lin Joya Chen Zihan Fan Mike Zheng Shou MLLM 27 72 0 14 Jun 2023
Aria Digital Twin: A New Benchmark Dataset for Egocentric 3D Machine Perception Xiaqing Pan Nicholas Charron Yongqiang Yang Scott Peters Thomas Whelan Chen Kong Omkar M. Parkhi Richard Newcombe C. Ren VGen 22 56 0 10 Jun 2023
Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment Zihui Xue Kristen Grauman EgoV 38 31 0 08 Jun 2023
MIMIC-IT: Multi-Modal In-Context Instruction Tuning Bo-wen Li Yuanhan Zhang Liangyu Chen Jinghao Wang Fanyi Pu Jingkang Yang C. Li Ziwei Liu MLLM VLM 37 224 0 08 Jun 2023
An Overview of Challenges in Egocentric Text-Video Retrieval Burak Satar Huaiyu Zhu Hanwang Zhang J. Lim EgoV 40 1 0 07 Jun 2023
Prompting Large Language Models to Reformulate Queries for Moment Localization Wenfeng Yan Shaoxiang Chen Zuxuan Wu Yu-Gang Jiang LRM 23 1 0 06 Jun 2023
LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning Bo Liu Yifeng Zhu Chongkai Gao Yihao Feng Qian Liu Yuke Zhu Peter Stone CLL 35 118 0 05 Jun 2023
Probabilistic Adaptation of Text-to-Video Models Mengjiao Yang Yilun Du Bo Dai Dale Schuurmans J. Tenenbaum Pieter Abbeel VGen DiffM 43 24 0 02 Jun 2023
Unifying (Machine) Vision via Counterfactual World Modeling Daniel M. Bear Kevin T. Feigelis Honglin Chen Wanhee Lee R. Venkatesh Klemen Kotar Alex Durango Daniel L. K. Yamins VGen 25 13 0 02 Jun 2023
LIV: Language-Image Representations and Rewards for Robotic Control Yecheng Jason Ma William Liang Vaidehi Som Vikash Kumar Amy Zhang Osbert Bastani Dinesh Jayaraman LM&Ro 37 121 0 01 Jun 2023
Train Offline, Test Online: A Real Robot Learning Benchmark G. Zhou Victoria Dean Mohan Kumar Srirama Aravind Rajeswaran Jyothish Pari ... Tianhe Yu Pieter Abbeel Lerrel Pinto Chelsea Finn Abhi Gupta OffRL 54 39 0 01 Jun 2023
FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses via Pixel-Aligned Scene Flow Cameron Smith Yilun Du A. Tewari Vincent Sitzmann 3DH 32 28 0 31 May 2023
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning Jialong Wu Haoyu Ma Chao Deng Mingsheng Long OffRL 34 25 0 29 May 2023
Bayesian Decision Making to Localize Visual Queries in 2D Syed Asjad Aniket Gupta H. Singh 11 0 0 28 May 2023
Inverse Dynamics Pretraining Learns Good Representations for Multitask Imitation David Brandfonbrener Ofir Nachum Joan Bruna AI4CE 26 21 0 26 May 2023
Discovering Novel Actions from Open World Egocentric Videos with Object-Grounded Visual Commonsense Reasoning Sanjoy Kundu Shubham Trehan Sathyanarayanan N. Aakur LRM LM&Ro 27 1 0 26 May 2023
Look Ma, No Hands! Agent-Environment Factorization of Egocentric Videos Matthew Chang Aditya Prakash Saurabh Gupta DiffM 37 17 0 25 May 2023
Guided Attention for Next Active Object @ EGO4D STA Challenge Sanket Thakur Cigdem Beyan Pietro Morerio Vittorio Murino Alessio Del Bue 18 0 0 25 May 2023
Action Sensitivity Learning for Temporal Action Localization Jiayi Shao Xiaohan Wang Ruijie Quan Junjun Zheng Jiang Yang Yezhou Yang 33 22 0 25 May 2023
Cross-view Action Recognition Understanding From Exocentric to Egocentric Perspective Thanh-Dat Truong Khoa Luu EgoV 41 10 0 25 May 2023
Learning high-level visual representations from a child's perspective without strong inductive biases A. Orhan Brenden M. Lake SSL 24 18 0 24 May 2023
EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought Yao Mu Qinglong Zhang Mengkang Hu Wen Wang Mingyu Ding Jun Jin Bin Wang Jifeng Dai Yu Qiao Ping Luo LM&Ro LRM 25 222 0 24 May 2023
EgoVSR: Towards High-Quality Egocentric Video Super-Resolution Yichen Chi Junhao Gu Jiamiao Zhang Wenming Yang Yapeng Tian SupR 24 0 0 24 May 2023
Siamese Masked Autoencoders Agrim Gupta Jiajun Wu Jia Deng Li Fei-Fei 41 49 0 23 May 2023
Perception Test: A Diagnostic Benchmark for Multimodal Video Models Viorica Puatruaucean Lucas Smaira Ankush Gupta Adrià Recasens Continente L. Markeeva ... Y. Aytar Simon Osindero Dima Damen Andrew Zisserman João Carreira VLM 135 141 0 23 May 2023
VideoLLM: Modeling Video Sequence with Large Language Models Guo Chen Yin-Dong Zheng Jiahao Wang Jilan Xu Yifei Huang ... Yi Wang Yali Wang Yu Qiao Tong Lu Limin Wang MLLM 103 77 0 22 May 2023
Enhancing Next Active Object-based Egocentric Action Anticipation with Guided Attention Sanket Thakur Cigdem Beyan Pietro Morerio Vittorio Murino Alessio Del Bue 38 6 0 22 May 2023