All Papers

Title

v1v2 (latest)

Self-critical Sequence Training for Image Captioning

2 December 2016

Papers citing "Self-critical Sequence Training for Image Captioning"

50 / 867 papers shown

Title
MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation Ling Yang Zhanyu Wang Huan Wang Xinyu Liang Luping Zhou LM&MA MedIm 118 7 0 04 Dec 2023
WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images Pingyi Chen Honglin Li Chenglu Zhu Sunyi Zheng Honglin Li Lin Yang 118 14 0 27 Nov 2023
A Systematic Review of Deep Learning-based Research on Radiology Report Generation Chang Liu Yuanhe Tian Yan Song MedIm 181 19 0 23 Nov 2023
Trustworthy Large Models in Vision: A Survey Ziyan Guo Li Xu Jun Liu MU 211 0 0 16 Nov 2023
Violet: A Vision-Language Model for Arabic Image Captioning with Gemini Decoder Abdelrahman Mohamed Fakhraddin Alwajih El Moatez Billah Nagoudi Alcides Alcoba Inciarte Muhammad Abdul-Mageed VLM MLLM 79 7 0 15 Nov 2023
Complex Organ Mask Guided Radiology Report Generation Tiancheng Gu Dongnan Liu Zhiyuan Li Weidong Cai MedIm 108 18 0 04 Nov 2023
Learning A Multi-Task Transformer Via Unified And Customized Instruction Tuning For Chest Radiograph Interpretation Lijian Xu Ziyu Ni Xinglong Liu Xiaosong Wang Hongsheng Li Shaoting Zhang MedIm LM&MA 88 6 0 02 Nov 2023
Generating Context-Aware Natural Answers for Questions in 3D Scenes Mohammed Munzer Dwedari Matthias Niessner Dave Zhenyu Chen 85 3 0 30 Oct 2023
Beyond MLE: Convex Learning for Text Generation Chenze Shao Zhengrui Ma Min Zhang Yang Feng 92 3 0 26 Oct 2023
Diversify Question Generation with Retrieval-Augmented Style Transfer Qi Gou Zehua Xia Bowen Yu Haiyang Yu Fei Huang Yongbin Li Nguyen Cam-Tu RALM 114 14 0 23 Oct 2023
RECAP: Towards Precise Radiology Report Generation via Dynamic Disease Progression Reasoning Wenjun Hou Yi Cheng Kaishuai Xu Wenjie Li Jiangming Liu 97 19 0 21 Oct 2023
CLAIR: Evaluating Image Captions with Large Language Models David M. Chan Suzanne Petryk Joseph E. Gonzalez Trevor Darrell John F. Canny 118 25 0 19 Oct 2023
Bounding and Filling: A Fast and Flexible Framework for Image Captioning Zheng Ma Changxin Wang Bo Huang Zi-Yue Zhu Jianbing Zhang 87 2 0 15 Oct 2023
A Comparative Study of Pre-trained CNNs and GRU-Based Attention for Image Caption Generation Rashid Khan Bingding Huang Haseeb Hassan Asim Zaman Z. Ye 64 2 0 11 Oct 2023
C^2M-DoT: Cross-modal consistent multi-view medical report generation with domain transfer network Ruizhi Wang Xiang-Fei Wang Jie Zhou Thomas Lukasiewicz Zhenghua Xu 94 2 0 09 Oct 2023
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling Haogeng Liu Qihang Fan Tingkai Liu Linjie Yang Yunzhe Tao Huaibo Huang Ran He Hongxia Yang VGen 89 13 0 08 Oct 2023
Module-wise Adaptive Distillation for Multimodality Foundation Models Chen Liang Jiahui Yu Ming-Hsuan Yang Matthew A. Brown Huayu Chen Tuo Zhao Boqing Gong Tianyi Zhou 146 11 0 06 Oct 2023
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction Yiren Jian Tingkai Liu Yunzhe Tao Chunhui Zhang Soroush Vosoughi HX Yang VLM 149 17 0 05 Oct 2023
$$\mathcal{B}$-Coder: Value-Based Deep Reinforcement Learning for Program Synthesis$ $\mathcal{B}$ -Coder: Value-Based Deep Reinforcement Learning for Program Synthesis Zishun Yu Yunzhe Tao Liyu Chen Tao Sun Hongxia Yang 117 16 0 04 Oct 2023
Improving Audio Captioning Models with Fine-grained Audio Features, Text Embedding Supervision, and LLM Mix-up Augmentation Shih-Lun Wu Xuankai Chang Gordon Wichern Jee-weon Jung Franccois G. Germain Jonathan Le Roux Shinji Watanabe 123 21 0 29 Sep 2023
Targeted Image Data Augmentation Increases Basic Skills Captioning Robustness Valentin Barriere Felipe del Rio Andres Carvallo De Ferari Carlos Aspillaga Eugenio Herrera-Berg Cristian Buc Calderon DiffM 110 0 0 27 Sep 2023
Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation Masato Mita Soichiro Murakami Akihiko Kato Peinan Zhang 128 14 0 21 Sep 2023
Beyond Generation: Harnessing Text to Image Models for Object Detection and Segmentation Yunhao Ge Lyne Tchapmi Brian Nlong Zhao Neel Joshi Laurent Itti Vibhav Vineet DiffM 110 14 0 12 Sep 2023
Vote2Cap-DETR++: Decoupling Localization and Describing for End-to-End 3D Dense Captioning Sijin Chen Erik Cambria Mingsheng Li Xin Chen Peng Guo Yinjie Lei Gang Yu Taihao Li Tao Chen 120 32 0 06 Sep 2023
S3C: Semi-Supervised VQA Natural Language Explanation via Self-Critical Learning Wei Suo Mengyang Sun Weisong Liu Yi-Meng Gao Peifeng Wang Yanning Zhang Qi Wu LRM 89 10 0 05 Sep 2023
NICE: CVPR 2023 Challenge on Zero-shot Image Captioning Taehoon Kim Pyunghwan Ahn Sangyun Kim Sihaeng Lee Mark A Marsden ... Yujin Wang Yimu Wang Tiancheng Gu Xingchang Lv Mingmao Sun VLM 150 7 0 05 Sep 2023
Towards Addressing the Misalignment of Object Proposal Evaluation for Vision-Language Tasks via Semantic Grounding Joshua Forster Feinglass Yezhou Yang 92 2 0 01 Sep 2023
Can Prompt Learning Benefit Radiology Report Generation? Jun Wang Lixing Zhu A. Bhalerao Yulan He MedIm 100 2 0 30 Aug 2023
Reinforcement Learning for Generative AI: A Survey Yuanjiang Cao Quan.Z Sheng Julian McAuley Lina Yao SyDa 287 15 0 28 Aug 2023
With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning Manuele Barraco Sara Sarto Marcella Cornia Lorenzo Baraldi Rita Cucchiara VLM 96 23 0 23 Aug 2023
CgT-GAN: CLIP-guided Text GAN for Image Captioning Jiarui Yu Haoran Li Y. Hao B. Zhu Tong Xu Xiangnan He VLM CLIP 109 20 0 23 Aug 2023
ViCo: Engaging Video Comment Generation with Human Preference Rewards Yuchong Sun Bei Liu Xu Chen Ruihua Song Jianlong Fu VGen 67 2 0 22 Aug 2023
Discrete Prompt Compression with Reinforcement Learning Hoyoun Jung Kyung-Joong Kim 125 32 0 17 Aug 2023
O-1: Self-training with Oracle and 1-best Hypothesis M. Baskar Andrew Rosenberg Bhuvana Ramabhadran Kartik Audhkhasi VLM 91 0 0 14 Aug 2023
Improving Generalization of Image Captioning with Unsupervised Prompt Learning Hongchen Wei Zhenzhong Chen VLM 102 3 0 05 Aug 2023
A Comprehensive Analysis of Real-World Image Captioning and Scene Identification Sai Suprabhanu Nallapaneni Subrahmanyam Konakanchi 86 2 0 05 Aug 2023
Beyond Generic: Enhancing Image Captioning with Real-World Knowledge using Vision-Language Pre-Training Model Ka Leong Cheng Wenpo Song Zheng Ma Wenhao Zhu Zi-Yue Zhu Jianbing Zhang CLIP VLM 98 13 0 02 Aug 2023
Visibility Enhancement for Low-light Hazy Scenarios Chaoqun Zhuang Yunfei Liu Sijia Wen Feng Lu DiffM 52 0 0 01 Aug 2023
Reinforcement Learning for Generative AI: State of the Art, Opportunities and Open Research Challenges Giorgio Franceschelli Mirco Musolesi AI4CE 241 24 0 31 Jul 2023
Alternate Learning based Sparse Semantic Communications for Visual Transmission Siyu Tong Xiaoxue Yu Rongpeng Li Kun Lu Zhifeng Zhao Honggang Zhang 86 4 0 31 Jul 2023
DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and Delivery Route Prediction Xiaowei Mao Haomin Wen Hengrui Zhang Huaiyu Wan Lixia Wu Jianbin Zheng Haoyuan Hu Youfang Lin AI4TS 180 16 0 30 Jul 2023
TbExplain: A Text-based Explanation Method for Scene Classification Models with the Statistical Prediction Correction Amirhossein Aminimehr Pouya Khani Amir Molaei Amirmohammad Kazemeini Min Zhang FAtt 121 5 0 19 Jul 2023
Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning Zijie Song Zhenzhen Hu Yuanen Zhou Ye Zhao Richang Hong Meng Wang 79 7 0 19 Jul 2023
A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future Chaoyang Zhu Long Chen ObjD VLM 181 47 0 18 Jul 2023
BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization Chaoya Jiang Haiyang Xu Wei Ye Qinghao Ye Chenliang Li Mingshi Yan Bin Bi Shikun Zhang Fei Huang Songfang Huang VLM 82 9 0 17 Jul 2023
Reading Radiology Imaging Like The Radiologist Yuhao Wang MedIm 109 0 0 12 Jul 2023
Shilling Black-box Review-based Recommender Systems through Fake Review Generation Hung-Yun Chiang Yi-Syuan Chen Yun-Zhu Song Hong-Han Shuai Jason J. S. Chang AAML 89 19 0 27 Jun 2023
Improving Reference-based Distinctive Image Captioning with Contrastive Rewards Yangjun Mao Jun Xiao Dong Zhang Meng Cao Jian Shao Yueting Zhuang Long Chen EGVM 92 9 0 25 Jun 2023
Natural Language Generation for Advertising: A Survey Soichiro Murakami Sho Hoshino Peinan Zhang 99 14 0 22 Jun 2023
Dense Video Object Captioning from Disjoint Supervision Xingyi Zhou Anurag Arnab Chen Sun Cordelia Schmid 129 4 0 20 Jun 2023

v1v2 (latest)

Self-critical Sequence Training for Image Captioning

2 December 2016

Papers citing "Self-critical Sequence Training for Image Captioning"

50 / 867 papers shown

Title
MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation Ling Yang Zhanyu Wang Huan Wang Xinyu Liang Luping Zhou LM&MA MedIm 118 7 0 04 Dec 2023
WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images Pingyi Chen Honglin Li Chenglu Zhu Sunyi Zheng Honglin Li Lin Yang 118 14 0 27 Nov 2023
A Systematic Review of Deep Learning-based Research on Radiology Report Generation Chang Liu Yuanhe Tian Yan Song MedIm 181 19 0 23 Nov 2023
Trustworthy Large Models in Vision: A Survey Ziyan Guo Li Xu Jun Liu MU 211 0 0 16 Nov 2023
Violet: A Vision-Language Model for Arabic Image Captioning with Gemini Decoder Abdelrahman Mohamed Fakhraddin Alwajih El Moatez Billah Nagoudi Alcides Alcoba Inciarte Muhammad Abdul-Mageed VLM MLLM 79 7 0 15 Nov 2023
Complex Organ Mask Guided Radiology Report Generation Tiancheng Gu Dongnan Liu Zhiyuan Li Weidong Cai MedIm 108 18 0 04 Nov 2023
Learning A Multi-Task Transformer Via Unified And Customized Instruction Tuning For Chest Radiograph Interpretation Lijian Xu Ziyu Ni Xinglong Liu Xiaosong Wang Hongsheng Li Shaoting Zhang MedIm LM&MA 88 6 0 02 Nov 2023
Generating Context-Aware Natural Answers for Questions in 3D Scenes Mohammed Munzer Dwedari Matthias Niessner Dave Zhenyu Chen 85 3 0 30 Oct 2023
Beyond MLE: Convex Learning for Text Generation Chenze Shao Zhengrui Ma Min Zhang Yang Feng 92 3 0 26 Oct 2023
Diversify Question Generation with Retrieval-Augmented Style Transfer Qi Gou Zehua Xia Bowen Yu Haiyang Yu Fei Huang Yongbin Li Nguyen Cam-Tu RALM 114 14 0 23 Oct 2023
RECAP: Towards Precise Radiology Report Generation via Dynamic Disease Progression Reasoning Wenjun Hou Yi Cheng Kaishuai Xu Wenjie Li Jiangming Liu 97 19 0 21 Oct 2023
CLAIR: Evaluating Image Captions with Large Language Models David M. Chan Suzanne Petryk Joseph E. Gonzalez Trevor Darrell John F. Canny 118 25 0 19 Oct 2023
Bounding and Filling: A Fast and Flexible Framework for Image Captioning Zheng Ma Changxin Wang Bo Huang Zi-Yue Zhu Jianbing Zhang 87 2 0 15 Oct 2023
A Comparative Study of Pre-trained CNNs and GRU-Based Attention for Image Caption Generation Rashid Khan Bingding Huang Haseeb Hassan Asim Zaman Z. Ye 64 2 0 11 Oct 2023
C^2M-DoT: Cross-modal consistent multi-view medical report generation with domain transfer network Ruizhi Wang Xiang-Fei Wang Jie Zhou Thomas Lukasiewicz Zhenghua Xu 94 2 0 09 Oct 2023
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling Haogeng Liu Qihang Fan Tingkai Liu Linjie Yang Yunzhe Tao Huaibo Huang Ran He Hongxia Yang VGen 89 13 0 08 Oct 2023
Module-wise Adaptive Distillation for Multimodality Foundation Models Chen Liang Jiahui Yu Ming-Hsuan Yang Matthew A. Brown Huayu Chen Tuo Zhao Boqing Gong Tianyi Zhou 146 11 0 06 Oct 2023
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction Yiren Jian Tingkai Liu Yunzhe Tao Chunhui Zhang Soroush Vosoughi HX Yang VLM 149 17 0 05 Oct 2023
$$\mathcal{B}$-Coder: Value-Based Deep Reinforcement Learning for Program Synthesis$ $\mathcal{B}$ -Coder: Value-Based Deep Reinforcement Learning for Program Synthesis Zishun Yu Yunzhe Tao Liyu Chen Tao Sun Hongxia Yang 117 16 0 04 Oct 2023
Improving Audio Captioning Models with Fine-grained Audio Features, Text Embedding Supervision, and LLM Mix-up Augmentation Shih-Lun Wu Xuankai Chang Gordon Wichern Jee-weon Jung Franccois G. Germain Jonathan Le Roux Shinji Watanabe 123 21 0 29 Sep 2023
Targeted Image Data Augmentation Increases Basic Skills Captioning Robustness Valentin Barriere Felipe del Rio Andres Carvallo De Ferari Carlos Aspillaga Eugenio Herrera-Berg Cristian Buc Calderon DiffM 110 0 0 27 Sep 2023
Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation Masato Mita Soichiro Murakami Akihiko Kato Peinan Zhang 128 14 0 21 Sep 2023
Beyond Generation: Harnessing Text to Image Models for Object Detection and Segmentation Yunhao Ge Lyne Tchapmi Brian Nlong Zhao Neel Joshi Laurent Itti Vibhav Vineet DiffM 110 14 0 12 Sep 2023
Vote2Cap-DETR++: Decoupling Localization and Describing for End-to-End 3D Dense Captioning Sijin Chen Erik Cambria Mingsheng Li Xin Chen Peng Guo Yinjie Lei Gang Yu Taihao Li Tao Chen 120 32 0 06 Sep 2023
S3C: Semi-Supervised VQA Natural Language Explanation via Self-Critical Learning Wei Suo Mengyang Sun Weisong Liu Yi-Meng Gao Peifeng Wang Yanning Zhang Qi Wu LRM 89 10 0 05 Sep 2023
NICE: CVPR 2023 Challenge on Zero-shot Image Captioning Taehoon Kim Pyunghwan Ahn Sangyun Kim Sihaeng Lee Mark A Marsden ... Yujin Wang Yimu Wang Tiancheng Gu Xingchang Lv Mingmao Sun VLM 150 7 0 05 Sep 2023
Towards Addressing the Misalignment of Object Proposal Evaluation for Vision-Language Tasks via Semantic Grounding Joshua Forster Feinglass Yezhou Yang 92 2 0 01 Sep 2023
Can Prompt Learning Benefit Radiology Report Generation? Jun Wang Lixing Zhu A. Bhalerao Yulan He MedIm 100 2 0 30 Aug 2023
Reinforcement Learning for Generative AI: A Survey Yuanjiang Cao Quan.Z Sheng Julian McAuley Lina Yao SyDa 287 15 0 28 Aug 2023
With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning Manuele Barraco Sara Sarto Marcella Cornia Lorenzo Baraldi Rita Cucchiara VLM 96 23 0 23 Aug 2023
CgT-GAN: CLIP-guided Text GAN for Image Captioning Jiarui Yu Haoran Li Y. Hao B. Zhu Tong Xu Xiangnan He VLM CLIP 109 20 0 23 Aug 2023
ViCo: Engaging Video Comment Generation with Human Preference Rewards Yuchong Sun Bei Liu Xu Chen Ruihua Song Jianlong Fu VGen 67 2 0 22 Aug 2023
Discrete Prompt Compression with Reinforcement Learning Hoyoun Jung Kyung-Joong Kim 125 32 0 17 Aug 2023
O-1: Self-training with Oracle and 1-best Hypothesis M. Baskar Andrew Rosenberg Bhuvana Ramabhadran Kartik Audhkhasi VLM 91 0 0 14 Aug 2023
Improving Generalization of Image Captioning with Unsupervised Prompt Learning Hongchen Wei Zhenzhong Chen VLM 102 3 0 05 Aug 2023
A Comprehensive Analysis of Real-World Image Captioning and Scene Identification Sai Suprabhanu Nallapaneni Subrahmanyam Konakanchi 86 2 0 05 Aug 2023
Beyond Generic: Enhancing Image Captioning with Real-World Knowledge using Vision-Language Pre-Training Model Ka Leong Cheng Wenpo Song Zheng Ma Wenhao Zhu Zi-Yue Zhu Jianbing Zhang CLIP VLM 98 13 0 02 Aug 2023
Visibility Enhancement for Low-light Hazy Scenarios Chaoqun Zhuang Yunfei Liu Sijia Wen Feng Lu DiffM 52 0 0 01 Aug 2023
Reinforcement Learning for Generative AI: State of the Art, Opportunities and Open Research Challenges Giorgio Franceschelli Mirco Musolesi AI4CE 241 24 0 31 Jul 2023
Alternate Learning based Sparse Semantic Communications for Visual Transmission Siyu Tong Xiaoxue Yu Rongpeng Li Kun Lu Zhifeng Zhao Honggang Zhang 86 4 0 31 Jul 2023
DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and Delivery Route Prediction Xiaowei Mao Haomin Wen Hengrui Zhang Huaiyu Wan Lixia Wu Jianbin Zheng Haoyuan Hu Youfang Lin AI4TS 180 16 0 30 Jul 2023
TbExplain: A Text-based Explanation Method for Scene Classification Models with the Statistical Prediction Correction Amirhossein Aminimehr Pouya Khani Amir Molaei Amirmohammad Kazemeini Min Zhang FAtt 121 5 0 19 Jul 2023
Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning Zijie Song Zhenzhen Hu Yuanen Zhou Ye Zhao Richang Hong Meng Wang 79 7 0 19 Jul 2023
A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future Chaoyang Zhu Long Chen ObjD VLM 181 47 0 18 Jul 2023
BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization Chaoya Jiang Haiyang Xu Wei Ye Qinghao Ye Chenliang Li Mingshi Yan Bin Bi Shikun Zhang Fei Huang Songfang Huang VLM 82 9 0 17 Jul 2023
Reading Radiology Imaging Like The Radiologist Yuhao Wang MedIm 109 0 0 12 Jul 2023
Shilling Black-box Review-based Recommender Systems through Fake Review Generation Hung-Yun Chiang Yi-Syuan Chen Yun-Zhu Song Hong-Han Shuai Jason J. S. Chang AAML 89 19 0 27 Jun 2023
Improving Reference-based Distinctive Image Captioning with Contrastive Rewards Yangjun Mao Jun Xiao Dong Zhang Meng Cao Jian Shao Yueting Zhuang Long Chen EGVM 92 9 0 25 Jun 2023
Natural Language Generation for Advertising: A Survey Soichiro Murakami Sho Hoshino Peinan Zhang 99 14 0 22 Jun 2023
Dense Video Object Captioning from Disjoint Supervision Xingyi Zhou Anurag Arnab Chen Sun Cordelia Schmid 129 4 0 20 Jun 2023