v1v2 (latest)

Self-critical Sequence Training for Image Captioning

2 December 2016

Papers citing "Self-critical Sequence Training for Image Captioning"

50 / 862 papers shown

Title
Neural Combinatorial Optimization: a New Player in the Field Andoni I. Garmendia Josu Ceberio A. Mendiburu 65 11 0 03 May 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 461 3,621 0 29 Apr 2022
QRelScore: Better Evaluating Generated Questions with Deeper Understanding of Context-aware Relevance Xiaoqiang Wang Bang Liu Siliang Tang Lingfei Wu 90 9 0 29 Apr 2022
Controllable Image Captioning Luka Maxwell 118 0 0 28 Apr 2022
Cross-modal Memory Networks for Radiology Report Generation Zhihong Chen Yaling Shen Yan Song Xiang Wan MedIm 121 262 0 28 Apr 2022
A Survey on Neural Abstractive Summarization Methods and Factual Consistency of Summarization Meng Cao 67 6 0 20 Apr 2022
Situational Perception Guided Image Matting Bo Xu Jiake Xie Han Huang Zi-Jun Li Cheng Lu Yong Tang Yandong Guo 86 4 0 20 Apr 2022
Non-Parallel Text Style Transfer with Self-Parallel Supervision Ruibo Liu Chongyang Gao Chenyan Jia Guangxuan Xu Soroush Vosoughi VLM 87 16 0 18 Apr 2022
Guiding Attention using Partial-Order Relationships for Image Captioning Murad Popattia Muhammad Rafi Rizwan Qureshi Shah Nawaz 54 5 0 15 Apr 2022
Image Captioning In the Transformer Age Yangliu Xu Li Li Haiyang Xu Songfang Huang Fei Huang Jianfei Cai ViT 69 6 0 15 Apr 2022
Self-critical Sequence Training for Automatic Speech Recognition Chen Chen Yuchen Hu Nana Hou Xiaofeng Qi Heqing Zou Chng Eng Siong 78 16 0 13 Apr 2022
Reinforcement learning on graphs: A survey Mingshuo Nie Dongming Chen Dongqi Wang 122 51 0 13 Apr 2022
On Distinctive Image Captioning via Comparing and Reweighting Jiuniu Wang Wenjia Xu Qingzhong Wang Antoni B. Chan 93 16 0 08 Apr 2022
Quantifying Societal Bias Amplification in Image Captioning Yusuke Hirota Yuta Nakashima Noa Garcia 81 48 0 29 Mar 2022
End-to-End Transformer Based Model for Image Captioning Yiyu Wang Jungang Xu Yingfei Sun VLM ViT 69 126 0 29 Mar 2022
NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External Knowledge D. Vo Hong Chen Akihiro Sugimoto Hideki Nakayama 134 14 0 28 Mar 2022
AlignTransformer: Hierarchical Alignment of Visual Regions and Disease Tags for Medical Report Generation Di You Fenglin Liu Shen Ge Xiaoxia Xie Jing Zhang Xian Wu ViT MedIm 138 114 0 18 Mar 2022
Factored Attention and Embedding for Unstructured-view Topic-related Ultrasound Report Generation Fuhai Chen Rongrong Ji Chengpeng Dai Xuri Ge Shengchuan Zhang Xiaojing Ma Yue Gao MedIm 50 1 0 12 Mar 2022
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation Wenliang Dai Lu Hou Lifeng Shang Xin Jiang Qun Liu Pascale Fung VLM 114 94 0 12 Mar 2022
Faking Fake News for Real Fake News Detection: Propaganda-loaded Training Data Generation Kung-Hsiang Huang Kathleen McKeown Preslav Nakov Yejin Choi Heng Ji 129 63 0 10 Mar 2022
Knowledge-enriched Attention Network with Group-wise Semantic for Visual Storytelling Tengpeng Li Hanli Wang Bin He Changan Chen DiffM 90 10 0 10 Mar 2022
NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks Fawaz Sammani Tanmoy Mukherjee Nikos Deligiannis MILM ELM LRM 138 68 0 09 Mar 2022
Semantic Distillation Guided Salient Object Detection Bo Xu Guanze Liu Han Huang Cheng Lu Yandong Guo 69 3 0 08 Mar 2022
WPNAS: Neural Architecture Search by jointly using Weight Sharing and Predictor Ke Lin A. Yong Zhuoxin Gan Yingying Jiang 59 0 0 04 Mar 2022
A Deep Neural Framework for Image Caption Generation Using GRU-Based Attention Mechanism Rashid Khan Shujah Islam Khadija Kanwal Mansoor Iqbal Md. Imran Hossain Z. Ye 3DV 40 18 0 03 Mar 2022
Interactive Machine Learning for Image Captioning Mareike Hartmann Aliki Anagnostopoulou Daniel Sonntag VLM 57 4 0 28 Feb 2022
CaMEL: Mean Teacher Learning for Image Captioning Manuele Barraco Matteo Stefanini Marcella Cornia S. Cascianelli Lorenzo Baraldi Rita Cucchiara ViT VLM 84 30 0 21 Feb 2022
ACORT: A Compact Object Relation Transformer for Parameter Efficient Image Captioning J. Tan Y. Tan C. Chan Joon Huang Chuah VLM ViT 90 19 0 11 Feb 2022
Image Difference Captioning with Pre-training and Contrastive Learning Linli Yao Weiying Wang Qin Jin SSL VLM 88 43 0 09 Feb 2022
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework Peng Wang An Yang Rui Men Junyang Lin Shuai Bai Zhikang Li Jianxin Ma Chang Zhou Jingren Zhou Hongxia Yang MLLM ObjD 268 884 0 07 Feb 2022
A Frustratingly Simple Approach for End-to-End Image Captioning Ziyang Luo Yadong Xi Rongsheng Zhang Jing Ma VLM MLLM 79 16 0 30 Jan 2022
Transformers in Medical Imaging: A Survey Fahad Shamshad Salman Khan Syed Waqas Zamir Muhammad Haris Khan Munawar Hayat Fahad Shahbaz Khan Huazhu Fu ViT LM&MA MedIm 200 712 0 24 Jan 2022
Improving Chest X-Ray Report Generation by Leveraging Warm Starting Aaron Nicolson Jason Dowling Bevan Koopman ViT LM&MA MedIm 108 97 0 24 Jan 2022
A Dual Prompt Learning Framework for Few-Shot Dialogue State Tracking Yuting Yang Wenqiang Lei Pei Huang Juan Cao Jintao Li Tat-Seng Chua 91 14 0 15 Jan 2022
Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular Vision-Language Pre-training Yehao Li Jiahao Fan Yingwei Pan Ting Yao Weiyao Lin Tao Mei MLLM ObjD 83 19 0 11 Jan 2022
Prior Knowledge Enhances Radiology Report Generation Song Wang Liyan Tang Mingquan Lin George Shih Ying Ding Yifan Peng MedIm 69 24 0 11 Jan 2022
Self-Training Vision Language BERTs with a Unified Conditional Model Xiaofeng Yang Fengmao Lv Fayao Liu Guosheng Lin SSL VLM 95 14 0 06 Jan 2022
Compact Bidirectional Transformer for Image Captioning Yuanen Zhou Zhenzhen Hu Daqing Liu Huixia Ben Meng Wang VLM 69 17 0 06 Jan 2022
Variational Stacked Local Attention Networks for Diverse Video Captioning Tonmoay Deb Akib Sadmanee Kishor Kumar Ahsan Ali M. Ashraful Mahbubur Rahman 70 8 0 04 Jan 2022
Extended Self-Critical Pipeline for Transforming Videos to Text (TRECVID-VTT Task 2021) -- Team: MMCUniAugsburg Philipp Harzig Moritz Einfalt K. Ludwig Rainer Lienhart ViT 107 0 0 28 Dec 2021
Synchronized Audio-Visual Frames with Fractional Positional Encoding for Transformers in Video-to-Text Translation Philipp Harzig Moritz Einfalt Rainer Lienhart ViT 75 2 0 28 Dec 2021
A Survey of Natural Language Generation Chenhe Dong Hai-Tao Zheng Haifan Gong Mengzhao Chen Junxin Li Ying Shen Min Yang 3DV 89 45 0 22 Dec 2021
Transcribing Natural Languages for The Deaf via Neural Editing Programs Dongxu Li Chenchen Xu Liu Liu Yiran Zhong Rongzhao Wang L. Petersson Hongdong Li 58 10 0 17 Dec 2021
MAGIC: Multimodal relAtional Graph adversarIal inferenCe for Diverse and Unpaired Text-based Image Captioning Wenqiao Zhang Haochen Shi Jiannan Guo Shengyu Zhang Qingpeng Cai Juncheng Li Sihui Luo Yueting Zhuang DiffM 100 46 0 13 Dec 2021
ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition Xinyu Wang Min Gui Yong Jiang Zixia Jia Nguyen Bach Tao Wang Zhongqiang Huang Fei Huang Kewei Tu 114 55 0 13 Dec 2021
Neural Belief Propagation for Scene Graph Generation Daqi Liu M. Bober J. Kittler GNN 66 9 0 10 Dec 2021
Injecting Semantic Concepts into End-to-End Image Captioning Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lin Liang Zhe Gan Lijuan Wang Yezhou Yang Zicheng Liu ViT VLM 86 91 0 09 Dec 2021
Protecting Intellectual Property of Language Generation APIs with Lexical Watermark Xuanli He Xingliang Yuan Lingjuan Lyu Fangzhao Wu Chenguang Wang WaLM 259 98 0 05 Dec 2021
D3Net: A Unified Speaker-Listener Architecture for 3D Dense Captioning and Visual Grounding Dave Zhenyu Chen Qirui Wu Matthias Nießner Angel X. Chang 83 32 0 02 Dec 2021
Consensus Graph Representation Learning for Better Grounded Image Captioning Wenqiao Zhang Haochen Shi Siliang Tang Jun Xiao Qiang Yu Yueting Zhuang 83 56 0 02 Dec 2021