v1v2 (latest)

What's in a Caption? Dataset-Specific Linguistic Diversity and Its Effect on Visual Description Models and Metrics

12 May 2022

David M. Chan

Austin Myers

Sudheendra Vijayanarasimhan

Papers citing "What's in a Caption? Dataset-Specific Linguistic Diversity and Its Effect on Visual Description Models and Metrics"

28 / 28 papers shown

Title
O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning Fenglin Liu Xuancheng Ren Xian Wu Bang-ju Yang Shen Ge Yuexian Zou Xu Sun 62 32 0 05 Aug 2021
Understanding and Evaluating Racial Biases in Image Captioning Dora Zhao Angelina Wang Olga Russakovsky 63 138 0 16 Jun 2021
SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption Evaluation via Typicality Analysis Joshua Forster Feinglass Yezhou Yang 48 22 0 02 Jun 2021
Worst of Both Worlds: Biases Compound in Pre-trained Vision-and-Language Models Tejas Srinivasan Yonatan Bisk VLM 69 56 0 18 Apr 2021
Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles Christopher Clark Mark Yatskar Luke Zettlemoyer 62 62 0 07 Nov 2020
Long-Tailed Classification by Keeping the Good and Removing the Bad Momentum Causal Effect Kaihua Tang Jianqiang Huang Hanwang Zhang CML 101 446 0 28 Sep 2020
MPNet: Masked and Permuted Pre-training for Language Understanding Kaitao Song Xu Tan Tao Qin Jianfeng Lu Tie-Yan Liu 106 1,133 0 20 Apr 2020
Deconfounded Image Captioning: A Causal Retrospect Xu Yang Hanwang Zhang Jianfei Cai CML 45 126 0 09 Mar 2020
Object Relational Graph with Teacher-Recommended Learning for Video Captioning Ziqi Zhang Yaya Shi Chunfen Yuan Bing Li Peijin Wang Weiming Hu Zhengjun Zha VLM 88 273 0 26 Feb 2020
Don't Judge an Object by Its Context: Learning to Overcome Contextual Bias Krishna Kumar Singh D. Mahajan Kristen Grauman Yong Jae Lee Matt Feiszli Deepti Ghadiyaram 63 109 0 09 Jan 2020
Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy Kaiyu Yang Klint Qinami Li Fei-Fei Jia Deng Olga Russakovsky 124 320 0 16 Dec 2019
Why Can't I Dance in the Mall? Learning to Mitigate Scene Bias in Action Recognition Jinwoo Choi Chen Gao Joseph C.E. Messou Jia-Bin Huang 135 182 0 11 Dec 2019
Exposing and Correcting the Gender Bias in Image Captioning Datasets and Models Shruti Bhargava David A. Forsyth FaML 60 50 0 02 Dec 2019
Predictive Biases in Natural Language Processing Models: A Conceptual Framework and Overview Deven Santosh Shah H. Andrew Schwartz Dirk Hovy AI4CE 104 260 0 09 Nov 2019
TIGEr: Text-to-Image Grounding for Image Caption Evaluation Ming Jiang Qiuyuan Huang Lei Zhang Xin Eric Wang Pengchuan Zhang Zhe Gan Jana Diesner Jianfeng Gao 90 68 0 04 Sep 2019
RUBi: Reducing Unimodal Biases in Visual Question Answering Rémi Cadène Corentin Dancette H. Ben-younes Matthieu Cord Devi Parikh CML 99 373 0 24 Jun 2019
HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips Antoine Miech Dimitri Zhukov Jean-Baptiste Alayrac Makarand Tapaswi Ivan Laptev Josef Sivic VGen 118 1,207 0 07 Jun 2019
BERTScore: Evaluating Text Generation with BERT Tianyi Zhang Varsha Kishore Felix Wu Kilian Q. Weinberger Yoav Artzi 346 5,860 0 21 Apr 2019
REPAIR: Removing Representation Bias by Dataset Resampling Yi Li Nuno Vasconcelos FaML 79 287 0 16 Apr 2019
VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research Xin Eric Wang Jiawei Wu Junkun Chen Lei Li Yuan-fang Wang William Yang Wang 101 555 0 06 Apr 2019
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 121 4,221 0 25 Jul 2017
Dense-Captioning Events in Videos Ranjay Krishna Kenji Hata F. Ren Li Fei-Fei Juan Carlos Niebles 139 1,249 0 02 May 2017
Towards Automatic Learning of Procedures from Web Instructional Videos Luowei Zhou Chenliang Xu Jason J. Corso EgoV 75 830 0 28 Mar 2017
Self-critical Sequence Training for Image Captioning Steven J. Rennie E. Marcheret Youssef Mroueh Jerret Ross Vaibhava Goel 109 1,890 0 02 Dec 2016
Pointer Sentinel Mixture Models Stephen Merity Caiming Xiong James Bradbury R. Socher RALM 335 2,895 0 26 Sep 2016
SPICE: Semantic Propositional Image Caption Evaluation Peter Anderson Basura Fernando Mark Johnson Stephen Gould EGVM 106 1,919 0 29 Jul 2016
Video Summarization with Long Short-term Memory Ke Zhang Wei-Lun Chao Fei Sha Kristen Grauman 97 689 0 26 May 2016
CIDEr: Consensus-based Image Description Evaluation Ramakrishna Vedantam C. L. Zitnick Devi Parikh 297 4,508 0 20 Nov 2014