v1v2 (latest)

Self-critical Sequence Training for Image Captioning

2 December 2016

Papers citing "Self-critical Sequence Training for Image Captioning"

50 / 862 papers shown

Title
Enhancing Multimodal Large Language Models with Multi-instance Visual Prompt Generator for Visual Representation Enrichment Wenliang Zhong Wenyi Wu Qi Li Rob Barton Boxin Du Shioulin Sam Karim Bouyarmane Ismail B. Tutar Junzhou Huang 94 3 0 05 Jun 2024
Image Captioning via Dynamic Path Customization Yiwei Ma Jiayi Ji Xiaoshuai Sun Yiyi Zhou Xiaopeng Hong Yongjian Wu Rongrong Ji 91 1 0 01 Jun 2024
Think Before You Act: A Two-Stage Framework for Mitigating Gender Bias Towards Vision-Language Tasks Yunqi Zhang Songda Li Chunyuan Deng Luyi Wang Hui Zhao 133 0 0 27 May 2024
Towards Retrieval-Augmented Architectures for Image Captioning Sara Sarto Marcella Cornia Lorenzo Baraldi Alessandro Nicolosi Rita Cucchiara VLM 98 12 0 21 May 2024
Keep It Private: Unsupervised Privatization of Online Text Calvin Bao Marine Carpuat DeLMO 99 3 0 16 May 2024
Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation Hao Wang Tetsuro Morimura Ukyo Honda Daisuke Kawahara 54 0 0 02 May 2024
Guiding Attention in End-to-End Driving Models Diego Porres Yi Xiao Gabriel Villalonga Alexandre Levy Antonio M. López 78 0 0 30 Apr 2024
Filtered Direct Preference Optimization Tetsuro Morimura Mitsuki Sakamoto Yuu Jinnai Kenshi Abe Kaito Air 129 15 0 22 Apr 2024
Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting Fengyi Fu Shancheng Fang Weidong Chen Zhendong Mao ViT VGen 82 4 0 19 Apr 2024
Beyond Average: Individualized Visual Scanpath Prediction Xianyu Chen Ming Jiang Qi Zhao 87 6 0 18 Apr 2024
EyeFormer: Predicting Personalized Scanpaths with Transformer-Guided Reinforcement Learning Yue Jiang Zixin Guo Hamed R. Tavakoli Luis A. Leiva Antti Oulasvirta 78 7 0 15 Apr 2024
Memory-based Cross-modal Semantic Alignment Network for Radiology Report Generation Yitian Tao Liyan Ma Jing Yu Han Zhang MedIm 97 8 0 31 Mar 2024
Semi-Supervised Image Captioning Considering Wasserstein Graph Matching Yang Yang 108 0 0 26 Mar 2024
Self-Improvement for Neural Combinatorial Optimization: Sample without Replacement, but Improvement Jonathan Pirnay D. G. Grimm 102 12 0 22 Mar 2024
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey Zeyu Han Chao Gao Jinyang Liu Jeff Zhang Sai Qian Zhang 347 408 0 21 Mar 2024
Dynamic Reward Adjustment in Multi-Reward Reinforcement Learning for Counselor Reflection Generation Do June Min Verónica Pérez-Rosas Kenneth Resnicow Rada Mihalcea OffRL 124 4 0 20 Mar 2024
Graph Attention Network-based Block Propagation with Optimal AoI and Reputation in Web 3.0 Jiana Liao Jinbo Wen Jiawen Kang Changyan Yi Yang Zhang Yutao Jiao Dusit Niyato Dong In Kim Shengli Xie 76 4 0 20 Mar 2024
A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes Ting Yu Xiaojun Lin Shuhui Wang Weiguo Sheng Qingming Huang Jun-chen Yu 3DV 96 10 0 12 Mar 2024
Enhancing Image Caption Generation Using Reinforcement Learning with Human Feedback L. AdarshN V. ArunP L. AravindhN 44 3 0 11 Mar 2024
How to Understand Named Entities: Using Common Sense for News Captioning Ning Xu Yanhui Wang Tingting Zhang Hongshuo Tian Mohan Kankanhalli An-An Liu 76 0 0 11 Mar 2024
An Efficient Learning-based Solver Comparable to Metaheuristics for the Capacitated Arc Routing Problem Runze Guo Feng Xue Anlong Ming N. Sebe 147 0 0 11 Mar 2024
Rule-driven News Captioning Ning Xu Tingting Zhang Hongshuo Tian An-An Liu 119 0 0 08 Mar 2024
RIFF: Learning to Rephrase Inputs for Few-shot Fine-tuning of Language Models Saeed Najafi Alona Fyshe 78 2 0 04 Mar 2024
Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training Haowei Liu Yaya Shi Haiyang Xu Chunfen Yuan Qinghao Ye ... Mingshi Yan Ji Zhang Fei Huang Bing Li Weiming Hu VLM 101 0 0 01 Mar 2024
VIXEN: Visual Text Comparison Network for Image Difference Captioning Alexander Black Jing Shi Yifei Fai Tu Bui John Collomosse 82 5 0 29 Feb 2024
Polos: Multimodal Metric Learning from Human Feedback for Image Captioning Yuiga Wada Kanta Kaneda Daichi Saito Komei Sugiura 102 30 0 28 Feb 2024
Sequential Visual and Semantic Consistency for Semi-supervised Text Recognition Mingkun Yang Biao Yang Minghui Liao Yingying Zhu Xiang Bai 91 5 0 24 Feb 2024
MerRec: A Large-scale Multipurpose Mercari Dataset for Consumer-to-Consumer Recommendation Systems Lichi Li Zainul Din Zhen Tan Sam London Tianlong Chen Ajay Daptardar 106 1 0 22 Feb 2024
Distinctive Image Captioning: Leveraging Ground Truth Captions in CLIP Guided Reinforcement Learning Antoine Chaffin Ewa Kijak Vincent Claveau 95 0 0 21 Feb 2024
Cobra Effect in Reference-Free Image Captioning Metrics Zheng Ma Changxin Wang Yawen Ouyang Fei Zhao Jianbing Zhang Shujian Huang Jiajun Chen 92 2 0 18 Feb 2024
EventRL: Enhancing Event Extraction with Outcome Supervision for Large Language Models Jun Gao Huan Zhao Wei Wang Changlong Yu Ruifeng Xu OffRL 67 5 0 18 Feb 2024
A Dense Reward View on Aligning Text-to-Image Diffusion with Preference Shentao Yang Tianqi Chen Mingyuan Zhou EGVM 126 30 0 13 Feb 2024
Intensive Vision-guided Network for Radiology Report Generation Fudan Zheng Mengfei Li Ying Wang Weijiang Yu Ruixuan Wang Zhiguang Chen Nong Xiao Yutong Lu 167 1 0 06 Feb 2024
ARGS: Alignment as Reward-Guided Search Maxim Khanov Jirayu Burapacheep Yixuan Li 130 62 0 23 Jan 2024
Finding a Needle in the Adversarial Haystack: A Targeted Paraphrasing Approach For Uncovering Edge Cases with Minimal Distribution Distortion Aly M. Kassem Sherif Saad AAML 74 1 0 21 Jan 2024
KTVIC: A Vietnamese Image Captioning Dataset on the Life Domain Anh-Cuong Pham Van-Quang Nguyen Thi-Hong Vuong Quang-Thuy Ha 69 1 0 16 Jan 2024
Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection Wei Ye Chaoya Jiang Haiyang Xu Chenhao Ye Chenliang Li Mingshi Yan Shikun Zhang Songhang Huang Fei Huang VLM 86 0 0 11 Jan 2024
Enhancing Multimodal Understanding with CLIP-Based Image-to-Text Transformation Change Che Qunwei Lin Xinyu Zhao Jiaxin Huang Liqiang Yu VLM 41 39 0 02 Jan 2024
CamPro: Camera-based Anti-Facial Recognition Wenjun Zhu Yuan Sun Jiani Liu Yushi Cheng Xiaoyu Ji Wei Dong PICV 82 1 0 30 Dec 2023
LLM4VG: Large Language Models Evaluation for Video Grounding Wei Feng Xin Wang Hong Chen Zeyang Zhang Zihan Song Yuwei Zhou Wenwu Zhu 119 8 0 21 Dec 2023
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model Shraman Pramanick Guangxing Han Rui Hou Sayan Nag Ser-Nam Lim Nicolas Ballas Qifan Wang Rama Chellappa Amjad Almahairi VLM MLLM 177 36 0 19 Dec 2023
UniDCP: Unifying Multiple Medical Vision-language Tasks via Dynamic Cross-modal Learnable Prompts Chenlu Zhan Yufei Zhang Yu Lin Gaoang Wang Hongwei Wang VLM MedIm 87 5 0 18 Dec 2023
TiMix: Text-aware Image Mixing for Effective Vision-Language Pre-training Chaoya Jiang Wei Ye Haiyang Xu Qinghao Ye Mingshi Yan Ji Zhang Shikun Zhang CLIP VLM 90 4 0 14 Dec 2023
RCA-NOC: Relative Contrastive Alignment for Novel Object Captioning Jiashuo Fan Yaoyuan Liang Leyao Liu Shao-Lun Huang Lei Zhang 125 2 0 11 Dec 2023
Mitigating Open-Vocabulary Caption Hallucinations Assaf Ben-Kish Moran Yanuka Morris Alper Raja Giryes Hadar Averbuch-Elor MLLM VLM 138 6 0 06 Dec 2023
MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation Ling Yang Zhanyu Wang Zhenghao Chen Xinyu Liang Luping Zhou LM&MA MedIm 106 6 0 04 Dec 2023
WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images Pingyi Chen Honglin Li Chenglu Zhu Sunyi Zheng Honglin Li Lin Yang 77 9 0 27 Nov 2023
A Systematic Review of Deep Learning-based Research on Radiology Report Generation Chang Liu Yuanhe Tian Yan Song MedIm 128 16 0 23 Nov 2023
Trustworthy Large Models in Vision: A Survey Ziyan Guo Li Xu Jun Liu MU 143 0 0 16 Nov 2023
Violet: A Vision-Language Model for Arabic Image Captioning with Gemini Decoder Abdelrahman Mohamed Fakhraddin Alwajih El Moatez Billah Nagoudi Alcides Alcoba Inciarte Muhammad Abdul-Mageed VLM MLLM 69 7 0 15 Nov 2023