Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World

23 March 2023

Wei Ji

Papers citing "Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World"

50 / 63 papers shown

Title
A Reverse Causal Framework to Mitigate Spurious Correlations for Debiasing Scene Graph Generation Shuzhou Sun Li Liu Tianpeng Liu Shuaifeng Zhi Ming-Ming Cheng J. Heikkilä Yongxiang Liu CML 221 0 0 29 May 2025
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea Qifan Yu Wei Chow Zhongqi Yue Kaihang Pan Yang Wu Xiaoyang Wan Juncheng Billy Li Siliang Tang Hao Zhang Yueting Zhuang DiffM 152 24 0 24 Nov 2024
End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting Yongqi Wang Xinxiao Wu Shuo Yang Jiebo Luo 415 1 0 19 Sep 2024
Interactive Data Synthesis for Systematic Vision Adaptation via LLMs-AIGCs Collaboration Qifan Yu Juncheng Li Wentao Ye Siliang Tang Yueting Zhuang 63 14 0 22 May 2023
Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models Juncheng Li Minghe Gao Longhui Wei Siliang Tang Wenqiao Zhang Meng Li Wei Ji Qi Tian Tat-Seng Chua Yueting Zhuang VLM VPVLM 71 20 0 12 Mar 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 426 4,550 0 30 Jan 2023
Variational Cross-Graph Reasoning and Adaptive Structured Semantics Learning for Compositional Temporal Grounding Juncheng Li Siliang Tang Linchao Zhu Wenqiao Zhang Yi Yang Tat-Seng Chua Fei Wu Yueting Zhuang BDL 55 16 0 22 Jan 2023
Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning Tao He Lianli Gao Jingkuan Song Yuan-Fang Li VLM 76 52 0 17 Aug 2022
Fine-Grained Semantically Aligned Vision-Language Pre-Training Juncheng Li Xin He Longhui Wei Long Qian Linchao Zhu Lingxi Xie Yueting Zhuang Qi Tian Siliang Tang VLM 60 80 0 04 Aug 2022
The Devil is in the Labels: Noisy Label Correction for Robust Scene Graph Generation Lin Li Long Chen Yifeng Huang Zhimeng Zhang Songyang Zhang Jun Xiao NoLa 79 76 0 07 Jun 2022
Fine-Grained Predicates Learning for Scene Graph Generation Xinyu Lyu Lianli Gao Yuyu Guo Zhou Zhao Hao Huang Hengtao Shen Jingkuan Song 62 39 0 06 Apr 2022
Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning Juncheng Li Junlin Xie Long Qian Linchao Zhu Siliang Tang Leilei Gan Yi Yang Yueting Zhuang Xinze Wang 85 74 0 24 Mar 2022
Fine-Grained Scene Graph Generation with Data Transfer Ao Zhang Yuan Yao Qián Chen Wei Ji Zhiyuan Liu Maosong Sun Tat-Seng Chua 84 94 0 22 Mar 2022
Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased Scene Graph Generation Xingning Dong Tian Gan Xuemeng Song Jianlong Wu Yuan Cheng Liqiang Nie 80 96 0 18 Mar 2022
Modular and Parameter-Efficient Multimodal Fusion with Prompting Sheng Liang Mengjie Zhao Hinrich Schütze 65 43 0 15 Mar 2022
Consensus Graph Representation Learning for Better Grounded Image Captioning Wenqiao Zhang Haochen Shi Siliang Tang Jun Xiao Qiang Yu Yueting Zhuang 53 56 0 02 Dec 2021
Not All Relations are Equal: Mining Informative Labels for Scene Graph Generation A. Goel Basura Fernando Frank Keller Hakan Bilen 75 33 0 26 Nov 2021
3DP3: 3D Scene Perception via Probabilistic Programming Nishad Gothoskar Marco F. Cusumano-Towner Ben Zinberg Matin Ghavamizadeh Falk Pollok A. Garrett J. Tenenbaum Dan Gutfreund Vikash K. Mansinghka 3DV 44 49 0 30 Oct 2021
Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm Yangguang Li Feng Liang Lichen Zhao Yufeng Cui Wanli Ouyang Jing Shao F. Yu Junjie Yan VLM CLIP 145 453 0 11 Oct 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 495 2,399 0 02 Sep 2021
Learning of Visual Relations: The Devil is in the Tails Alakh Desai Tz-Ying Wu Subarna Tripathi Nuno Vasconcelos 106 90 0 22 Aug 2021
ReFormer: The Relational Transformer for Image Captioning Xuewen Yang Yingru Liu Xin Wang ViT 76 56 0 29 Jul 2021
Greedy Gradient Ensemble for Robust Visual Question Answering Xinzhe Han Shuhui Wang Chi Su Qingming Huang Q. Tian 46 77 0 27 Jul 2021
Adaptive Hierarchical Graph Reasoning with Semantic Coherence for Video-and-Language Inference Juncheng Li Siliang Tang Linchao Zhu Haochen Shi Xuanwen Huang Leilei Gan Yi Yang Yueting Zhuang 79 28 0 26 Jul 2021
Zero-Shot Scene Graph Relation Prediction through Commonsense Knowledge Integration Xuan Kan Hejie Cui Carl Yang 108 42 0 11 Jul 2021
Recovering the Unbiased Scene Graphs from the Biased Ones Meng-Jiun Chiou Henghui Ding Hanshu Yan Changhu Wang Roger Zimmermann Jiashi Feng 84 117 0 05 Jul 2021
Multimodal Few-Shot Learning with Frozen Language Models Maria Tsimpoukelli Jacob Menick Serkan Cabi S. M. Ali Eslami Oriol Vinyals Felix Hill MLLM 169 780 0 25 Jun 2021
Structured Sparse R-CNN for Direct Scene Graph Generation Yao Teng Limin Wang 3DPC GNN 71 56 0 21 Jun 2021
Bipartite Graph Network with Adaptive Message Passing for Unbiased Scene Graph Generation Rongjie Li Songyang Zhang Bo Wan Xuming He 225 219 0 01 Apr 2021
Visual Distant Supervision for Scene Graph Generation Yuan Yao Ao Zhang Xu Han Mengdi Li C. Weber Zhiyuan Liu S. Wermter Maosong Sun 39 39 0 29 Mar 2021
A Comprehensive Survey of Scene Graphs: Generation and Application Xiaojun Chang Pengzhen Ren Pengfei Xu Zhihui Li Xiaojiang Chen Alexander G. Hauptmann 3DV 93 232 0 17 Mar 2021
Exploiting Edge-Oriented Reasoning for 3D Point-based Scene Graph Analysis Chaoyi Zhang Jianhui Yu Yang Song Weidong (Tom) Cai 3DPC 72 52 0 09 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 925 29,436 0 26 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 443 3,856 0 11 Feb 2021
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision Wonjae Kim Bokyung Son Ildoo Kim VLM CLIP 119 1,745 0 05 Feb 2021
Measuring and Improving Consistency in Pretrained Language Models Yanai Elazar Nora Kassner Shauli Ravfogel Abhilasha Ravichander Eduard H. Hovy Hinrich Schütze Yoav Goldberg HILM 320 367 0 01 Feb 2021
Prefix-Tuning: Optimizing Continuous Prompts for Generation Xiang Lisa Li Percy Liang 240 4,254 0 01 Jan 2021
Making Pre-trained Language Models Better Few-shot Learners Tianyu Gao Adam Fisch Danqi Chen 391 1,967 0 31 Dec 2020
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 651 41,103 0 22 Oct 2020
CogTree: Cognition Tree Loss for Unbiased Scene Graph Generation Jiahao Yu Yuan Chai Yujing Wang Yue Hu Qi Wu CML 100 114 0 16 Sep 2020
It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners Timo Schick Hinrich Schütze 124 972 0 15 Sep 2020
PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph Generation Shaotian Yan Chen Shen Zhongming Jin Jianqiang Huang Rongxin Jiang Yao-wu Chen Xiansheng Hua 86 133 0 02 Sep 2020
Seesaw Loss for Long-Tailed Instance Segmentation Jiaqi Wang Wenwei Zhang Yuhang Zang Yuhang Cao Jiangmiao Pang Tao Gong Kai-xiang Chen Ziwei Liu Chen Change Loy Dahua Lin 67 240 0 23 Aug 2020
The Devil is in Classification: A Simple Framework for Long-tail Object Detection and Instance Segmentation Tao Wang Yu Li Bingyi Kang Junnan Li Jun Hao Liew Sheng Tang Guosheng Lin Jiashi Feng ISeg 93 181 0 23 Jul 2020
Generative Compositional Augmentations for Scene Graph Prediction Boris Knyazev H. D. Vries Cătălina Cangea Graham W. Taylor Aaron Courville Eugene Belilovsky 44 26 0 11 Jul 2020
Unbiased Scene Graph Generation from Biased Training Kaihua Tang Yulei Niu Jianqiang Huang Jiaxin Shi Hanwang Zhang CML 81 697 0 27 Feb 2020
In Defense of Grid Features for Visual Question Answering Huaizu Jiang Ishan Misra Marcus Rohrbach Erik Learned-Miller Xinlei Chen OOD ObjD 55 320 0 10 Jan 2020
Weakly Supervised Visual Semantic Parsing Alireza Zareian Svebor Karaman Shih-Fu Chang GNN 72 57 0 08 Jan 2020
oLMpics -- On what Language Model Pre-training Captures Alon Talmor Yanai Elazar Yoav Goldberg Jonathan Berant LRM 101 304 0 31 Dec 2019
How Can We Know What Language Models Know? Zhengbao Jiang Frank F. Xu Jun Araki Graham Neubig KELM 132 1,405 0 28 Nov 2019