v1v2 (latest)

Know "No'' Better: A Data-Driven Approach for Enhancing Negation Awareness in CLIP

19 January 2025

Papers citing "Know "No'' Better: A Data-Driven Approach for Enhancing Negation Awareness in CLIP"

45 / 45 papers shown

Title
Thunder-NUBench: A Benchmark for LLMs' Sentence-Level Negation Understanding Yeonkyoung So Gyuseong Lee Sungmok Jung Joonhak Lee JiA Kang Sangho Kim Jaejin Lee 28 0 0 17 Jun 2025
Hypothesis Testing in Imaging Inverse Problems Yiming Xi K. Zygalakis Marcelo Pereyra 49 0 0 28 May 2025
TNG-CLIP:Training-Time Negation Data Generation for Negation Awareness of CLIP Yuliang Cai Jesse Thomason Mohammad Rostami VLM 17 0 0 24 May 2025
Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations Jaisidh Singh Ishaan Shrivastava Mayank Vatsa Richa Singh Aparna Bharati VLM CoGe 86 20 0 29 Mar 2024
FairerCLIP: Debiasing CLIP's Zero-Shot Predictions using Functions in RKHSs Sepehr Dehdashtian Lan Wang Vishnu Boddeti VLM 89 15 0 22 Mar 2024
A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions Jack Urbanek Florian Bordes Pietro Astolfi Mary Williamson Vasu Sharma Adriana Romero Soriano CLIP 3DV 93 48 0 14 Dec 2023
Alpha-CLIP: A CLIP Model Focusing on Wherever You Want Zeyi Sun Ye Fang Tong Wu Pan Zhang Yuhang Zang Shu Kong Yuanjun Xiong Dahua Lin Jiaqi Wang VLM CLIP 124 91 0 06 Dec 2023
Active Open-Vocabulary Recognition: Let Intelligent Moving Mitigate CLIP Limitations Lei Fan Jianxiong Zhou Xiaoying Xing Ying Wu VLM 73 4 0 28 Nov 2023
Self-correcting LLM-controlled Diffusion Models Tsung-Han Wu Long Lian Joseph E. Gonzalez Boyi Li Trevor Darrell 127 67 0 27 Nov 2023
This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models Iker García-Ferrero Begoña Altuna J. Álvez Itziar Gonzalez-Dios German Rigau 45 17 0 24 Oct 2023
Improved Baselines with Visual Instruction Tuning Haotian Liu Chunyuan Li Yuheng Li Yong Jae Lee VLM MLLM 237 2,830 0 05 Oct 2023
Aligning Large Multimodal Models with Factually Augmented RLHF Zhiqing Sun Sheng Shen Shengcao Cao Haotian Liu Chunyuan Li ... Liangyan Gui Yu-Xiong Wang Yiming Yang Kurt Keutzer Trevor Darrell VLM 134 396 0 25 Sep 2023
CLIPN for Zero-Shot OOD Detection: Teaching CLIP to Say No Hualiang Wang Yi Li Huifeng Yao Xuelong Li VLM OODD 131 107 0 23 Aug 2023
The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World Weiyun Wang Min Shi Qingyun Li Wen Wang Zhenhang Huang ... Zhiguo Cao Yushi Chen Tong Lu Jifeng Dai Yu Qiao LRM MLLM 133 88 0 03 Aug 2023
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis Dustin Podell Zion English Kyle Lacey A. Blattmann Tim Dockhorn Jonas Muller Joe Penna Robin Rombach 302 2,457 0 04 Jul 2023
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models Long Lian Boyi Li Adam Yala Trevor Darrell 106 164 0 23 May 2023
Evaluating Object Hallucination in Large Vision-Language Models Yifan Li Yifan Du Kun Zhou Jinpeng Wang Wayne Xin Zhao Ji-Rong Wen MLLM LRM 346 815 0 17 May 2023
DataComp: In search of the next generation of multimodal datasets S. Gadre Gabriel Ilharco Alex Fang J. Hayase Georgios Smyrnis ... A. Dimakis J. Jitsev Y. Carmon Vaishaal Shankar Ludwig Schmidt VLM 118 452 0 27 Apr 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 582 4,945 0 17 Apr 2023
TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering Yushi Hu Benlin Liu Jungo Kasai Yizhong Wang Mari Ostendorf Ranjay Krishna Noah A. Smith EGVM 87 239 0 21 Mar 2023
Reproducible scaling laws for contrastive language-image learning Mehdi Cherti Romain Beaumont Ross Wightman Mitchell Wortsman Gabriel Ilharco Cade Gordon Christoph Schuhmann Ludwig Schmidt J. Jitsev VLM CLIP 139 823 0 14 Dec 2022
CREPE: Can Vision-Language Foundation Models Reason Compositionally? Zixian Ma Jerry Hong Mustafa Omer Gul Mona Gandhi Irena Gao Ranjay Krishna CoGe 94 142 0 13 Dec 2022
LAION-5B: An open large-scale dataset for training next generation image-text models Christoph Schuhmann Romain Beaumont Richard Vencu Cade Gordon Ross Wightman ... Srivatsa Kundurthy Katherine Crowson Ludwig Schmidt R. Kaczmarczyk J. Jitsev VLM MLLM CLIP 231 3,520 0 16 Oct 2022
When and why vision-language models behave like bags-of-words, and what to do about it? Mert Yuksekgonul Federico Bianchi Pratyusha Kalluri Dan Jurafsky James Zou VLM CoGe 150 394 0 04 Oct 2022
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections Chenliang Li Haiyang Xu Junfeng Tian Wei Wang Ming Yan ... Ji Zhang Songfang Huang Feiran Huang Jingren Zhou Luo Si VLM MLLM 93 224 0 24 May 2022
Learn to Understand Negation in Video Retrieval Ziyue Wang Aozhu Chen Fan Hu Xirong Li SSL 115 13 0 30 Apr 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 571 4,434 0 28 Jan 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 600 15,845 0 20 Dec 2021
Image Segmentation Using Text and Image Prompts Timo Lüddecke Alexander S. Ecker CLIP VLM 155 477 0 18 Dec 2021
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Letitia Parcalabescu Michele Cafagna Lilitta Muradjan Anette Frank Iacer Calixto Albert Gatt CoGe 104 118 0 14 Dec 2021
Florence: A New Foundation Model for Computer Vision Lu Yuan Dongdong Chen Yi-Ling Chen Noel Codella Xiyang Dai ... Zhen Xiao Jianwei Yang Michael Zeng Luowei Zhou Pengchuan Zhang VLM 176 907 0 22 Nov 2021
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation Junnan Li Ramprasaath R. Selvaraju Akhilesh Deepak Gotmare Shafiq Joty Caiming Xiong Guosheng Lin FaML 249 1,984 0 16 Jul 2021
Understanding by Understanding Not: Modeling Negation in Language Models Arian Hosseini Siva Reddy Dzmitry Bahdanau R. Devon Hjelm Alessandro Sordoni Rameswar Panda 98 90 0 07 May 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 1.1K 30,032 0 26 Feb 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 428 5,015 0 24 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 513 3,911 0 11 Feb 2021
PhraseCut: Language-based Image Segmentation in the Wild Chenyun Wu Zhe Lin Scott D. Cohen Trung Bui Subhransu Maji VLM 70 115 0 03 Aug 2020
NegBERT: A Transfer Learning Approach for Negation Detection and Scope Resolution Aditya P. Khandelwal S. Sawant 88 86 0 11 Nov 2019
Representation Learning with Contrastive Predictive Coding Aaron van den Oord Yazhe Li Oriol Vinyals DRL SSL 360 10,385 0 10 Jul 2018
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 393 3,275 0 02 Dec 2016
Modeling Context in Referring Expressions Licheng Yu Patrick Poirson Shan Yang Alexander C. Berg Tamara L. Berg 135 1,281 0 31 Jul 2016
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 278 5,523 0 03 May 2015
Deep Learning Face Attributes in the Wild Ziwei Liu Ping Luo Xiaogang Wang Xiaoou Tang CVBM 272 8,442 0 28 Nov 2014
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 1.7K 39,705 0 01 Sep 2014
Microsoft COCO: Common Objects in Context Nayeon Lee Michael Maire Serge J. Belongie Lubomir Bourdev Ross B. Girshick James Hays Pietro Perona Deva Ramanan C. L. Zitnick Piotr Dollár ObjD 479 43,961 0 01 May 2014