v1v2 (latest)

HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing

5 December 2024

Papers citing "HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing"

50 / 54 papers shown

Title
SMART-Editor: A Multi-Agent Framework for Human-Like Design Editing with Structural Integrity Ishani Mondal Meera Bharadwaj Ayush Roy Aparna Garimella Jordan L. Boyd-Graber KELM 0 0 0 30 Jul 2025
Trade-offs in Image Generation: How Do Different Dimensions Interact? Sicheng Zhang Binzhu Xie Zhonghao Yan Yuli Zhang Donghao Zhou Xiaofei Chen Shi Qiu Jiaqi Liu Guoyang Xie Zhichao Lu 5 0 0 29 Jul 2025
ComplexBench-Edit: Benchmarking Complex Instruction-Driven Image Editing via Compositional Dependencies Chenglin Wang Yucheng Zhou Qianning Wang Zhe Wang Kai Zhang CoGe 44 3 0 15 Jun 2025
Track Any Anomalous Object: A Granular Video Anomaly Detection Pipeline Yuzhi Huang Chenxin Li H. Zhang Zixu Lin Yunlong Lin ... Xinyu Liu Jiechao Gao Yue Huang Xinghao Ding Yixuan Yuan 126 1 0 05 Jun 2025
MIND-Edit: MLLM Insight-Driven Editing via Language-Vision Projection Shuyu Wang Weiqi Li Qian Wang Shijie Zhao Jian Zhang DiffM 80 0 0 25 May 2025
Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM Donghwan Chi Hyomin Kim Yoonjin Oh Yongjin Kim Donghoon Lee DaeJin Jo Jongmin Kim Junyeob Baek Sungjin Ahn Sungwoong Kim MLLM VLM 509 0 0 23 May 2025
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models Yongliang Wu Zonghui Li Xinting Hu Xinyu Ye Xianfang Zeng Gang Yu Wenbo Zhu Bernt Schiele Ming-Hsuan Yang Xu Yang VLM 118 2 0 22 May 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities Wei Wei Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan ... Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 375 5 0 05 May 2025
Step1X-Edit: A Practical Framework for General Image Editing Shixuan Liu Yucheng Han Peng Xing Fukun Yin Rui Wang ... Yibo Zhu Binxing Jiao Wei Wei Gang Yu Daxin Jiang DiffM 302 35 0 24 Apr 2025
Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer Qingyu Shi Jianzong Wu Jinbin Bai Jing Zhang Lu Qi Xuelong Li Yunhai Tong 104 0 0 21 Mar 2025
An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control Aosong Feng Weikang Qiu Jinbin Bai Xiao Zhang Zhen Dong Kaicheng Zhou Rex Ying Leandros Tassiulas DiffM 133 6 0 28 Jan 2025
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea Qifan Yu Wei Chow Zhongqi Yue Kaihang Pan Yang Wu Xiaoyang Wan Juncheng Billy Li Siliang Tang Hao Zhang Yueting Zhuang DiffM 259 38 0 24 Nov 2024
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models Donghao Zhou Jiancheng Huang J. Bai Jiaze Wang Hao Chen Guangyong Chen Xiaowei Hu Pheng Ann Heng 167 7 0 17 Oct 2024
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale Haozhe Zhao Xiaojian Ma Liang Chen Shuzheng Si Rujie Wu Kaikai An Peiyu Yu Minjia Zhang Qing Li Baobao Chang 118 83 0 07 Jul 2024
MVGamba: Unify 3D Content Generation as State Space Sequence Modeling Xuanyu Yi Zike Wu Qiuhong Shen Qingshan Xu Pan Zhou Joo-Hwee Lim Shuicheng Yan Xinchao Wang Hanwang Zhang 144 13 0 10 Jun 2024
VideoTetris: Towards Compositional Text-to-Video Generation Ye Tian Ling Yang Haotian Yang Yuan Gao Yufan Deng ... Zhaochen Yu Xin Tao Pengfei Wan Di Zhang Bin Cui DiffM VGen 148 24 0 06 Jun 2024
EditWorld: Simulating World Dynamics for Instruction-Following Image Editing Ling Yang Bo-Wen Zeng Jiaming Liu Hong Li Minghao Xu Wentao Zhang Shuicheng Yan DiffM 89 19 0 23 May 2024
SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing Yuying Ge Sijie Zhao Chen Li Yixiao Ge Ying Shan 84 42 0 07 May 2024
Auto-Encoding Morph-Tokens for Multimodal LLM Kaihang Pan Siliang Tang Juncheng Li Zhaoyu Fan Wei Chow Shuicheng Yan Tat-Seng Chua Yueting Zhuang Hanwang Zhang MLLM 85 26 0 03 May 2024
HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing Mude Hui Siwei Yang Bingchen Zhao Yichun Shi Heng Wang Peng Wang Yuyin Zhou Cihang Xie 97 81 0 15 Apr 2024
Diffusion Time-step Curriculum for One Image to 3D Generation Xuanyu Yi Zike Wu Qingshan Xu Pan Zhou Joo-Hwee Lim Hanwang Zhang 142 20 0 06 Apr 2024
Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation Axel Sauer Frederic Boesel Tim Dockhorn A. Blattmann Patrick Esser Robin Rombach DiffM 133 146 0 18 Mar 2024
Transparent Image Layer Diffusion using Latent Transparency Lvmin Zhang Maneesh Agrawala 141 57 0 27 Feb 2024
A Survey on Hallucination in Large Vision-Language Models Hanchao Liu Wenyuan Xue Yifei Chen Dapeng Chen Xiutian Zhao Ke Wang Liping Hou Rong-Zhi Li Wei Peng LRM MLLM 109 155 0 01 Feb 2024
Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior Zike Wu Pan Zhou Xuanyu Yi Xiaoding Yuan Hanwang Zhang DiffM 97 44 0 17 Jan 2024
aMUSEd: An Open MUSE Reproduction Suraj Patil William Berman Robin Rombach Patrick von Platen VLM 85 20 0 03 Jan 2024
HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data Qifan Yu Juncheng Li Longhui Wei Liang Pang Wentao Ye Bosheng Qin Siliang Tang Qi Tian Yueting Zhuang MLLM VLM 127 91 0 22 Nov 2023
Emu Edit: Precise Image Editing via Recognition and Generation Tasks Shelly Sheynin Adam Polyak Uriel Singer Yuval Kirstain Amit Zohar Oron Ashual Devi Parikh Yaniv Taigman 108 162 0 16 Nov 2023
Integrating View Conditions for Image Synthesis Jinbin Bai Zhen Dong Aosong Feng Xiao Zhang Tian-Chun Ye Kaicheng Zhou 135 15 0 24 Oct 2023
Invariant Training 2D-3D Joint Hard Samples for Few-Shot Point Cloud Recognition Xuanyu Yi Jiajun Deng Qianru Sun Xiansheng Hua J. Lim Hanwang Zhang 3DPC 68 14 0 18 Aug 2023
Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions Juncheng Li Kaihang Pan Zhiqi Ge Minghe Gao Wei Ji Wenqiao Zhang Tat-Seng Chua Siliang Tang Hanwang Zhang Yueting Zhuang MLLM 123 75 0 08 Aug 2023
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis Dustin Podell Zion English Kyle Lacey A. Blattmann Tim Dockhorn Jonas Muller Joe Penna Robin Rombach 480 2,662 0 04 Jul 2023
MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing Kai Zhang Lingbo Mo Wenhu Chen Huan Sun Yu-Chuan Su EGVM 261 304 0 16 Jun 2023
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models A. Blattmann Robin Rombach Huan Ling Tim Dockhorn Seung Wook Kim Sanja Fidler Karsten Kreis 3DGS VGen 315 1,149 0 18 Apr 2023
Subject-driven Text-to-Image Generation via Apprenticeship Learning Wenhu Chen Hexiang Hu Yandong Li Nataniel Rui Xuhui Jia Ming-Wei Chang William W. Cohen DiffM 240 196 0 01 Apr 2023
HIVE: Harnessing Human Feedback for Instructional Visual Editing Shu Zhen Zhang Xinyi Yang Yihao Feng Can Qin Chia-Chih Chen ... Haiquan Wang Silvio Savarese Stefano Ermon Caiming Xiong Ran Xu 97 126 0 16 Mar 2023
Variational Cross-Graph Reasoning and Adaptive Structured Semantics Learning for Compositional Temporal Grounding Juncheng Li Siliang Tang Linchao Zhu Wenqiao Zhang Yi Yang Tat-Seng Chua Fei Wu Yueting Zhuang BDL 102 18 0 22 Jan 2023
InstructPix2Pix: Learning to Follow Image Editing Instructions Tim Brooks Aleksander Holynski Alexei A. Efros DiffM 369 1,927 0 17 Nov 2022
Imagic: Text-Based Real Image Editing with Diffusion Models Bahjat Kawar Shiran Zada Oran Lang Omer Tov Hui-Tang Chang Tali Dekel Inbar Mosseri Michal Irani 171 1,136 0 17 Oct 2022
LAION-5B: An open large-scale dataset for training next generation image-text models Christoph Schuhmann Romain Beaumont Richard Vencu Cade Gordon Ross Wightman ... Srivatsa Kundurthy Katherine Crowson Ludwig Schmidt R. Kaczmarczyk J. Jitsev VLM MLLM CLIP 240 3,682 0 16 Oct 2022
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation Nataniel Ruiz Yuanzhen Li Varun Jampani Yael Pritch Michael Rubinstein Kfir Aberman 491 3,050 0 25 Aug 2022
Prompt-to-Prompt Image Editing with Cross Attention Control Amir Hertz Ron Mokady J. Tenenbaum Kfir Aberman Yael Pritch Daniel Cohen-Or DiffM 375 1,874 0 02 Aug 2022
Blended Latent Diffusion Omri Avrahami Ohad Fried Dani Lischinski DiffM 200 414 0 06 Jun 2022
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 522 7,129 0 13 Apr 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer DiffM 768 16,630 0 20 Dec 2021
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models Alex Nichol Prafulla Dhariwal Aditya A. Ramesh Pranav Shyam Pamela Mishkin Bob McGrew Ilya Sutskever Mark Chen 568 3,735 0 20 Dec 2021
Blended Diffusion for Text-driven Editing of Natural Images Omri Avrahami Dani Lischinski Ohad Fried DiffM 278 980 0 29 Nov 2021
Learning by Planning: Language-Guided Global Image Editing Jing Shi Ning Xu Yihang Xu Trung Bui Franck Dernoncourt Chenliang Xu DiffM LM&Ro 69 33 0 24 Jun 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Edouard Grave Julien Mairal Piotr Bojanowski Armand Joulin 1.2K 6,392 0 29 Apr 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 1.2K 31,484 0 26 Feb 2021