Improving Continuous Sign Language Recognition with Adapted Image Models

12 April 2024

Papers citing "Improving Continuous Sign Language Recognition with Adapted Image Models"

42 / 42 papers shown

Title
CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language Recognition with Variational Alignment Jiangbin Zheng Yile Wang Cheng Tan Siyuan Li Ge Wang Jun Xia Yidong Chen Stan Z. Li SLR 56 66 0 10 Mar 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 426 4,563 0 30 Jan 2023
Self-Emphasizing Network for Continuous Sign Language Recognition Lianyu Hu Liqing Gao Zekang Liu Wei Feng SLR 76 57 0 30 Nov 2022
Frozen CLIP Models are Efficient Video Learners Ziyi Lin Shijie Geng Renrui Zhang Peng Gao Gerard de Melo Xiaogang Wang Jifeng Dai Yu Qiao Hongsheng Li CLIP VLM 91 207 0 06 Aug 2022
Temporal Lift Pooling for Continuous Sign Language Recognition Lianyu Hu Liqing Gao Zekang Liu Wei Feng SLR 71 43 0 18 Jul 2022
Robust Fine-Tuning of Deep Neural Networks with Hessian-based Generalization Guarantees Haotian Ju Dongyue Li Hongyang R. Zhang 80 30 0 06 Jun 2022
CoCa: Contrastive Captioners are Image-Text Foundation Models Jiahui Yu Zirui Wang Vijay Vasudevan Legg Yeung Mojtaba Seyedhosseini Yonghui Wu VLM CLIP OffRL 157 1,301 0 04 May 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 382 3,542 0 29 Apr 2022
Visual Prompt Tuning Menglin Jia Luming Tang Bor-Chun Chen Claire Cardie Serge Belongie Bharath Hariharan Ser-Nam Lim VLM VPVLM 153 1,627 0 23 Mar 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 537 4,360 0 28 Jan 2022
VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks Yi-Lin Sung Jaemin Cho Joey Tianyi Zhou VLM VPVLM 105 354 0 13 Dec 2021
Grounded Language-Image Pre-training Liunian Harold Li Pengchuan Zhang Haotian Zhang Jianwei Yang Chunyuan Li ... Lu Yuan Lei Zhang Lei Li Kai-Wei Chang Jianfeng Gao ObjD VLM 126 1,062 0 07 Dec 2021
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling Renrui Zhang Rongyao Fang Wei Zhang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 265 400 0 06 Nov 2021
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks Xiao Liu Kaixuan Ji Yicheng Fu Weng Lam Tam Zhengxiao Du Zhilin Yang Jie Tang VLM 287 853 0 14 Oct 2021
SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign Language Recognition Hezhen Hu Weichao Zhao Wen-gang Zhou Yuechen Wang Houqiang Li ViT 68 70 0 11 Oct 2021
CLIP-Adapter: Better Vision-Language Models with Feature Adapters Peng Gao Shijie Geng Renrui Zhang Teli Ma Rongyao Fang Yongfeng Zhang Hongsheng Li Yu Qiao VLM CLIP 293 1,042 0 09 Oct 2021
Towards a Unified View of Parameter-Efficient Transfer Learning Junxian He Chunting Zhou Xuezhe Ma Taylor Berg-Kirkpatrick Graham Neubig AAML 129 937 0 08 Oct 2021
Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss Xingyi Cheng Hezheng Lin Xiangyu Wu Fan Yang Dong Shen 53 154 0 09 Sep 2021
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP Han Fang Pengfei Xiong Luhui Xu Yu Chen CLIP VLM 101 298 0 21 Jun 2021
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 471 10,367 0 17 Jun 2021
Improving Sign Language Translation with Monolingual Data by Sign Back-Translation Hao Zhou Wen-gang Zhou Weizhen Qi Junfu Pu Houqiang Li SLR 49 191 0 26 May 2021
Multiscale Vision Transformers Haoqi Fan Bo Xiong K. Mangalam Yanghao Li Zhicheng Yan Jitendra Malik Christoph Feichtenhofer ViT 132 1,259 0 22 Apr 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 573 4,047 0 18 Apr 2021
Visual Alignment Constraint for Continuous Sign Language Recognition Yuecong Min Aiming Hao Xiujuan Chai Xilin Chen SLR 74 135 0 06 Apr 2021
MDMMT: Multidomain Multimodal Transformer for Video Retrieval Maksim Dzabraev M. Kalashnikov Stepan Alekseevich Komkov Aleksandr Petiushko 71 132 0 19 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 929 29,436 0 26 Feb 2021
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision Wonjae Kim Bokyung Son Ildoo Kim VLM CLIP 123 1,749 0 05 Feb 2021
Prefix-Tuning: Optimizing Continuous Prompts for Generation Xiang Lisa Li Percy Liang 244 4,261 0 01 Jan 2021
Pose-based Sign Language Recognition using GCN and BERT Anirudh Tunga Sai Vidyaranya Nuthalapati J. Wachs SLR 50 69 0 01 Dec 2020
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 657 41,103 0 22 Oct 2020
Boosting Continuous Sign Language Recognition via Cross Modality Augmentation Junfu Pu Wen-gang Zhou Hezhen Hu Houqiang Li 74 113 0 11 Oct 2020
Fully Convolutional Networks for Continuous Sign Language Recognition Ka Leong Cheng Zhaoyang Yang Qifeng Chen Yu-Wing Tai SLR 68 147 0 24 Jul 2020
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 533 610 0 21 Jul 2020
Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation Necati Cihan Camgöz Oscar Koller Simon Hadfield Richard Bowden SLR 83 506 0 30 Mar 2020
Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition Hao Zhou Wen-gang Zhou Yun Zhou Houqiang Li NoLa 62 200 0 08 Feb 2020
In Defense of Grid Features for Visual Question Answering Huaizu Jiang Ishan Misra Marcus Rohrbach Erik Learned-Miller Xinlei Chen OOD ObjD 55 320 0 10 Jan 2020
SF-Net: Structured Feature Network for Continuous Sign Language Recognition Zhaoyang Yang Zhenmei Shi Xiaoyong Shen Yu-Wing Tai SLR 47 64 0 04 Aug 2019
Parameter-Efficient Transfer Learning for NLP N. Houlsby A. Giurgiu Stanislaw Jastrzebski Bruna Morrone Quentin de Laroussilhe Andrea Gesmundo Mona Attariyan Sylvain Gelly 210 4,460 0 02 Feb 2019
Video-based Sign Language Recognition without Temporal Segmentation Jie Huang Wen-gang Zhou Qilin Zhang Houqiang Li Weiping Li SLR 72 411 0 30 Jan 2018
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 121 4,216 0 25 Jul 2017
Feature Pyramid Networks for Object Detection Nayeon Lee Piotr Dollár Ross B. Girshick Kaiming He Bharath Hariharan Serge J. Belongie ObjD 474 22,108 0 09 Dec 2016
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun ObjD 396 11,227 0 18 Jun 2014