Multidimensional Byte Pair Encoding: Shortened Sequences for Improved Visual Data Generation

15 November 2024

Tim Elsner

Paula Usinger

Julius Nehring-Wirxel

Papers citing "Multidimensional Byte Pair Encoding: Shortened Sequences for Improved Visual Data Generation"

26 / 26 papers shown

Title
One-Shot Learning Meets Depth Diffusion in Multi-Object Videos Anisha Jain VGen DiffM MDE 40 1 0 29 Aug 2024
LookupViT: Compressing visual information to a limited number of tokens Rajat Koner Gagan Jain Prateek Jain Volker Tresp Sujoy Paul 51 11 0 17 Jul 2024
An Image is Worth 32 Tokens for Reconstruction and Generation Qihang Yu Mark Weber XueQing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen VLM ViT 163 104 0 11 Jun 2024
CCEdit: Creative and Controllable Video Editing via Diffusion Models Danfeng Hong Wenming Weng Hao Li Yuhui Yuan Jing Yao Chong Luo Zhibo Chen Baining Guo DiffM VGen 61 49 0 28 Sep 2023
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack Xiaoliang Dai Ji Hou Chih-Yao Ma Sam S. Tsai Jialiang Wang ... Roshan Sumbaly Vignesh Ramanathan Zijian He Peter Vajda Devi Parikh VLM 85 214 0 27 Sep 2023
A Novel Sampling Scheme for Text- and Image-Conditional Image Synthesis in Quantized Latent Spaces Dominic Rampas Pablo Pernias Marc Aubreville DiffM 34 12 0 14 Nov 2022
Autoregressive Image Generation using Residual Quantization Doyup Lee Chiheon Kim Saehoon Kim Minsu Cho Wook-Shin Han VGen 271 375 0 03 Mar 2022
EdiBERT, a generative model for image editing Thibaut Issenhuth Ugo Tanielian Jérémie Mary David Picard DiffM 65 12 0 30 Nov 2021
Discrete Acoustic Space for an Efficient Sampling in Neural Text-To-Speech Mu Li Jonas Rohnke Antonio Bonafonte Mateusz Lajszczak Trevor Wood DRL 66 2 0 24 Oct 2021
VideoGPT: Video Generation using VQ-VAE and Transformers Wilson Yan Yunzhi Zhang Pieter Abbeel A. Srinivas ViT VGen 310 512 0 20 Apr 2021
RoFormer: Enhanced Transformer with Rotary Position Embedding Jianlin Su Yu Lu Shengfeng Pan Ahmed Murtadha Bo Wen Yunfeng Liu 284 2,521 0 20 Apr 2021
Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields Jonathan T. Barron B. Mildenhall Matthew Tancik Peter Hedman Ricardo Martín Brualla Pratul P. Srinivasan 121 1,984 0 24 Mar 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 418 4,996 0 24 Feb 2021
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 670 41,430 0 22 Oct 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 683 18,310 0 19 Jun 2020
Robust Training of Vector Quantized Bottleneck Models A. Lancucki J. Chorowski Guillaume Sanchez R. Marxer Nanxin Chen Hans J. G. A. Dolfing Sameer Khurana Tanel Alumäe Antoine Laurent 80 60 0 18 May 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 611 4,905 0 23 Jan 2020
SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing Taku Kudo John Richardson 201 3,528 0 19 Aug 2018
Neural Discrete Representation Learning Aaron van den Oord Oriol Vinyals Koray Kavukcuoglu BDL SSL OCL 230 5,071 0 02 Nov 2017
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation C. Qi Hao Su Kaichun Mo Leonidas Guibas 3DH 3DPC 3DV PINN 493 14,360 0 02 Dec 2016
ShapeNet: An Information-Rich 3D Model Repository Angel X. Chang Thomas Funkhouser Leonidas Guibas Pat Hanrahan Qi-Xing Huang ... Shuran Song Hao Su Jianxiong Xiao L. Yi Feng Yu 3DV 172 5,538 0 09 Dec 2015
Neural Machine Translation of Rare Words with Subword Units Rico Sennrich Barry Haddow Alexandra Birch 228 7,757 0 31 Aug 2015
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 1.9K 77,378 0 18 May 2015
Deep Learning Face Attributes in the Wild Ziwei Liu Ping Luo Xiaogang Wang Xiaoou Tang CVBM 247 8,426 0 28 Nov 2014
Going Deeper with Convolutions Christian Szegedy Wei Liu Yangqing Jia P. Sermanet Scott E. Reed Dragomir Anguelov D. Erhan Vincent Vanhoucke Andrew Rabinovich 485 43,694 0 17 Sep 2014
Neural Machine Translation by Jointly Learning to Align and Translate Dzmitry Bahdanau Kyunghyun Cho Yoshua Bengio AIMat 578 27,327 0 01 Sep 2014