Fine-Tuning Florence2 for Enhanced Object Detection in Un-constructed Environments: Vision-Language Model Approach

6 March 2025

Soumyadeep Ro

Sanapala Satwika

Pamarthi Yasoda Gayathri

Mohmmad Ghaith Balsha

Papers citing "Fine-Tuning Florence2 for Enhanced Object Detection in Un-constructed Environments: Vision-Language Model Approach"

30 / 30 papers shown

Title
Empowering LLMs to Understand and Generate Complex Vector Graphics Ximing Xing Juncheng Hu Guotao Liang Jing Zhang Dong Xu Qian Yu 133 11 0 15 Dec 2024
Can Large Language Models Understand Symbolic Graphics Programs? Zeju Qiu Weiyang Liu Haiwen Feng Zhen Liu Tim Z. Xiao Katherine M. Collins J. Tenenbaum Adrian Weller Michael J. Black Bernhard Schölkopf 103 13 0 15 Aug 2024
Gemma 2: Improving Open Language Models at a Practical Size Gemma Team Gemma Team Morgane Riviere Shreya Pathak Pier Giuseppe Sessa Cassidy Hardin ... Noah Fiedel Armand Joulin Kathleen Kenealy Robert Dadashi Alek Andreev VLM MoE OSLM 100 856 0 31 Jul 2024
FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion Li-Wen Chang Yiyuan Ma Qi Hou Chengquan Jiang Ningxin Zheng ... Zuquan Song Ziheng Jiang Yanghua Peng Xuanzhe Liu Xin Liu 66 26 0 11 Jun 2024
Exploring the Capability of LLMs in Performing Low-Level Visual Analytic Tasks on SVG Data Visualizations Zhongzhen Xu Emily Wall 61 15 0 29 Apr 2024
SVGEditBench: A Benchmark Dataset for Quantitative Assessment of LLM's SVG Editing Capabilities Kunato Nishina Yusuke Matsui 62 12 0 21 Apr 2024
Long-CLIP: Unlocking the Long-Text Capability of CLIP Beichen Zhang Pan Zhang Xiao-wen Dong Yuhang Zang Jiaqi Wang CLIP VLM 72 131 0 22 Mar 2024
StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis Zecheng Tang Chenfei Wu Zekai Zhang Mingheng Ni Sheng-Siang Yin ... Zhengyuan Yang Lijuan Wang Zicheng Liu Juntao Li Nan Duan 42 13 0 30 Jan 2024
SVGDreamer: Text Guided SVG Generation with Diffusion Model Ximing Xing Haitao Zhou Chuang Wang Jing Zhang Dong Xu Qian Yu DiffM 45 36 0 27 Dec 2023
StarVector: Generating Scalable Vector Graphics Code from Images and Text Juan A. Rodriguez Shubham Agarwal I. Laradji Pau Rodríguez P. Rodríguez Sai Rajeswar David Vazquez Christopher Pal M. Pedersoli 84 9 0 17 Dec 2023
GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks Xinlu Zhang Yujie Lu Weizhi Wang An Yan Jun Yan Lianke Qin Heng Wang Xifeng Yan William Y. Wang Linda R. Petzold LM&MA MLLM ELM 59 83 0 02 Nov 2023
Image Vectorization: a Review Maria Dziuba Ivan Jarsky Valeria Efimova Andrey Filchenkov 3DV DiffM 45 10 0 10 Jun 2023
IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers Rong Wu Wanchao Su Kede Ma Jing Liao 77 40 0 27 Apr 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.3K 14,289 0 15 Mar 2023
Neural Style Transfer for Vector Graphics Valeria Efimova Artyom Chebykin Ivan Jarsky Evgenii Prosvirnin Andrey Filchenkov 55 5 0 06 Mar 2023
T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models Chong Mou Xintao Wang Liangbin Xie Yanze Wu Shuai Liu Zhongang Qi Ying Shan Xiaohu Qie DiffM 60 1,014 0 16 Feb 2023
VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models Ajay Jain Amber Xie Pieter Abbeel DiffM 49 94 0 21 Nov 2022
Versatile Diffusion: Text, Images and Variations All in One Diffusion Model Xingqian Xu Zhangyang Wang Eric Zhang Kai Wang Humphrey Shi DiffM 77 197 0 15 Nov 2022
Towards Layer-wise Image Vectorization Xu Ma Yuqian Zhou Xingqian Xu Bin Sun Valerii Filev Nikita Orlov Y. Fu Humphrey Shi 44 59 0 09 Jun 2022
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding Chitwan Saharia William Chan Saurabh Saxena Lala Li Jay Whang ... Raphael Gontijo-Lopes Tim Salimans Jonathan Ho David J Fleet Mohammad Norouzi VLM 370 6,006 0 23 May 2022
Conditional Vector Graphics Generation for Music Cover Images Valeria Efimova Ivan Jarsky Ilya Bizyaev Andrey Filchenkov GAN 47 3 0 15 May 2022
StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Translation Peter Schaldenbrand Zhixuan Liu Jean Oh CLIP 75 44 0 24 Feb 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 374 15,454 0 20 Dec 2021
CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image Encoders Kevin Frans Lisa Soros Olaf Witkowski CLIP 77 210 0 28 Jun 2021
Im2Vec: Synthesizing Vector Graphics without Vector Supervision P. Reddy Michael Gharbi M. Lukác Niloy J. Mitra 3DV 61 116 0 04 Feb 2021
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 557 40,961 0 22 Oct 2020
DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation Alexandre Carlier Martin Danelljan Alexandre Alahi Radu Timofte 159 145 0 22 Jul 2020
A Learned Representation for Scalable Vector Graphics Raphael Gontijo-Lopes David R Ha Douglas Eck Jonathon Shlens GAN OCL 65 117 0 04 Apr 2019
FIGR: Few-shot Image Generation with Reptile Louis Clouâtre Marc Demers GAN VLM 51 98 0 08 Jan 2019
Neural Discrete Representation Learning Aaron van den Oord Oriol Vinyals Koray Kavukcuoglu BDL SSL OCL 210 5,004 0 02 Nov 2017