v1v2v3 (latest)

Image Transformer

15 February 2018

Papers citing "Image Transformer"

50 / 837 papers shown

Title
PPTP: Performance-Guided Physiological Signal-Based Trust Prediction in Human-Robot Collaboration Hao Guo Wei Fan Shaohui Liu Feng Jiang Chunzhi Yi 34 0 0 20 Jun 2025
Deep Learning Reforms Image Matching: A Survey and Outlook Shihua Zhang Zizhuo Li Kaining Zhang Yifan Lu Yuxin Deng Linfeng Tang Xingyu Jiang Jiayi Ma 3DV 115 0 0 05 Jun 2025
Large Language Models for EEG: A Comprehensive Survey and Taxonomy Naseem Babu Jimson Mathew A. P. Vinod 33 0 0 02 Jun 2025
VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models Ce Zhang Kaixin Ma Tianqing Fang Wenhao Yu Hongming Zhang Zhisong Zhang Yaqi Xie Katia Sycara Haitao Mi Dong Yu VLM 104 0 0 28 May 2025
Vision Transformers with Self-Distilled Registers Yinjie Chen Zipeng Yan Chong Zhou Bo Dai Andrew F. Luo 60 0 0 27 May 2025
MARché: Fast Masked Autoregressive Image Generation with Cache-Aware Attention Chaoyi Jiang Sungwoo Kim Lei Gao Hossein Entezari Zarch Won Woo Ro Murali Annavaram 31 0 0 22 May 2025
MMaDA: Multimodal Large Diffusion Language Models Ling Yang Ye Tian Bowen Li Xinchen Zhang Ke Shen Yunhai Tong Mengdi Wang VLM LRM 147 6 0 21 May 2025
Video-GPT via Next Clip Diffusion Shaobin Zhuang Zhipeng Huang Ying Zhang Fangyikang Wang Canmiao Fu Binxin Yang Chong Sun Chen Li Yali Wang DiffM VGen 247 0 0 18 May 2025
LatticeVision: Image to Image Networks for Modeling Non-Stationary Spatial Data Antony Sikorski Michael Ivanitskiy Nathan Lenssen Douglas Nychka Daniel McKenzie DiffM 445 0 0 14 May 2025
A Reproduction Study: The Kernel PCA Interpretation of Self-Attention Fails Under Scrutiny Karahan Sarıtaş Çağatay Yıldız 65 0 0 12 May 2025
Deepfakes on Demand: the rise of accessible non-consensual deepfake image generators Will Hawkins Chris Russell Brent Mittelstadt DiffM 416 0 0 06 May 2025
Where's the liability in the Generative Era? Recovery-based Black-Box Detection of AI-Generated Content Haoyue Bai Yiyou Sun Wei Cheng Haifeng Chen AAML 96 0 0 02 May 2025
Learning Streaming Video Representation via Multitask Training Yibin Yan Jilan Xu Shangzhe Di Yikun Liu Yudi Shi Qirui Chen Zeqian Li Yifei Huang Weidi Xie CLL 171 1 0 28 Apr 2025
EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation Zhe Dong Yuzhe Sun Tianzhu Liu Wangmeng Zuo Yanfeng Gu 92 0 0 28 Apr 2025
Distilling semantically aware orders for autoregressive image generation Rishav Pramanik Antoine Poupon Juan A. Rodriguez Masih Aminbeidokhti David Vazquez Christopher Pal Zhaozheng Yin M. Pedersoli 87 0 0 23 Apr 2025
Random Long-Context Access for Mamba via Hardware-aligned Hierarchical Sparse Attention Xiang Hu Jiaqi Leng Jun Zhao Kewei Tu Wei Wu Mamba 113 0 0 23 Apr 2025
Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light Ali Hassani Fengzhe Zhou Aditya Kane Jiannan Huang Chieh-Yun Chen ... Bing Xu Haicheng Wu Wen-mei W. Hwu Xuan Li Humphrey Shi 58 1 0 23 Apr 2025
Hybrid Knowledge Transfer through Attention and Logit Distillation for On-Device Vision Systems in Agricultural IoT Stanley Mugisha Rashid Kisitu Florence Tushabe 72 0 0 21 Apr 2025
Advancing Video Anomaly Detection: A Bi-Directional Hybrid Framework for Enhanced Single- and Multi-Task Approaches Guodong Shen Yuqi Ouyang Junru Lu Yixuan Yang Victor Sanchez 238 1 0 20 Apr 2025
HQViT: Hybrid Quantum Vision Transformer for Image Classification Hui Zhang Qinglin Zhao Mengchu Zhou Li Feng ViT 76 2 0 03 Apr 2025
Decoding Covert Speech from EEG Using a Functional Areas Spatio-Temporal Transformer Muyun Jiang Y. Ding Wei Zhang Kok Ann Colin Teo LaiGuan Fong ... Parasuraman Padmanabhan Victoria Leong Jia Lu Balazs Gulyas Cuntai Guan 80 0 0 02 Apr 2025
In the Blink of an Eye: Instant Game Map Editing using a Generative-AI Smart Brush Vitaly Gnatyuk Valeriia Koriukina Ilya Levoshevich Pavel Nurminskiy Guenter Wallner 104 0 0 25 Mar 2025
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction Ziyao Guo Kai Zhang Michael Qizhe Shieh 62 0 0 20 Mar 2025
Unified Autoregressive Visual Generation and Understanding with Continuous Tokens Lijie Fan Luming Tang Siyang Qin Tianhong Li Xuan S. Yang ... Tao Zhu Michael Rubinstein Michalis Raptis Deqing Sun Radu Soricut 125 8 0 17 Mar 2025
Next-Scale Autoregressive Models are Zero-Shot Single-Image Object View Synthesizers Shiran Yuan Hao Zhao DiffM 121 0 0 17 Mar 2025
SAM2-ELNet: Label Enhancement and Automatic Annotation for Remote Sensing Segmentation Jianhao Yang Wenshuo Yu Yuanchao Lv Jiance Sun Bokang Sun Mingyang Liu 85 0 0 16 Mar 2025
Direction-Aware Diagonal Autoregressive Image Generation Yijia Xu Jianzhong Ju Jian Luan J. Cui 185 0 0 14 Mar 2025
Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective Xiaoming Zhao Alexander Schwing FaML 102 1 0 13 Mar 2025
NAMI: Efficient Image Generation via Progressive Rectified Flow Transformers Yuhang Ma Bo Cheng Shanyuan Liu Ao Ma Xiaoyu Wu Liebucha Wu Dawei Leng Yuhui Yin 112 0 0 12 Mar 2025
TS-CGNet: Temporal-Spatial Fusion Meets Centerline-Guided Diffusion for BEV Mapping Xinying Hong Siyu Li Kang Zeng Hao-miao Shi Bomin Peng Kailun Yang Hui Yuan 123 0 0 04 Mar 2025
Methods and Trends in Detecting Generated Images: A Comprehensive Review Arpan Mahara N. Rishe AAML 448 1 0 24 Feb 2025
A Transformer-in-Transformer Network Utilizing Knowledge Distillation for Image Recognition Dewan Tauhid Rahman Yeahia Sarker Antar Mazumder Md. Shamim Anower ViT 65 0 0 24 Feb 2025
Intelligent Anomaly Detection for Lane Rendering Using Transformer with Self-Supervised Pre-Training and Customized Fine-Tuning Yongqi Dong Xingmin Lu Ruohan Li Wei Song B. Arem Haneen Farah ViT 188 1 0 21 Feb 2025
UniMoD: Efficient Unified Multimodal Transformers with Mixture-of-Depths Weijia Mao Zhiyong Yang Mike Zheng Shou MoE 208 1 0 10 Feb 2025
HyLiFormer: Hyperbolic Linear Attention for Skeleton-based Human Action Recognition Yue Li Haoxuan Qu Mengyuan Liu Qingbin Liu Y. Cai 99 2 0 09 Feb 2025
Mamba-Shedder: Post-Transformer Compression for Efficient Selective Structured State Space Models J. P. Muñoz Jinjie Yuan Nilesh Jain Mamba 146 2 0 28 Jan 2025
Simplified and Generalized Masked Diffusion for Discrete Data Jiaxin Shi Kehang Han Zehao Wang Arnaud Doucet Michalis K. Titsias DiffM 227 105 0 17 Jan 2025
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens Dongwon Kim Ju He Qihang Yu Chenglin Yang Xiaohui Shen Suha Kwak Liang-Chieh Chen VLM 150 11 0 13 Jan 2025
Likelihood Training of Cascaded Diffusion Models via Hierarchical Volume-preserving Maps Henry Li Ronen Basri Y. Kluger DiffM 148 2 0 13 Jan 2025
Circuit Complexity Bounds for Visual Autoregressive Model Yekun Ke Xiaoyu Li Yingyu Liang Zhenmei Shi Zhao Song 105 8 0 08 Jan 2025
DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers Yuntao Chen Yuqi Wang Zhaoxiang Zhang 472 11 0 24 Dec 2024
Jet: A Modern Transformer-Based Normalizing Flow Alexander Kolesnikov André Susano Pinto Michael Tschannen 110 3 0 19 Dec 2024
Parallelized Autoregressive Visual Generation Yanjie Wang Shuhuai Ren Zhijie Lin Yujin Han Haoyuan Guo Zhenheng Yang Difan Zou Jiashi Feng Xihui Liu VGen 205 17 0 19 Dec 2024
Phaseformer: Phase-based Attention Mechanism for Underwater Image Restoration and Beyond MD Raqib Khan Anshul Negi Ashutosh Kulkarni Shruti S. Phutke Santosh Kumar Vipparthi Subrahmanyam Murala 111 1 0 02 Dec 2024
Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads Siqi Kou Jiachun Jin Chang Liu Ye Ma Jian Jia Quan Chen Peng Jiang Zhijie Deng Zhijie Deng DiffM VGen VLM 255 12 0 28 Nov 2024
Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory Eric Hanchen Jiang Yasi Zhang Zhi Zhang Yixin Wan Andrew Lizarraga Shufan Li Ying Nian Wu DiffM 130 3 0 25 Nov 2024
ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis Zanlin Ni Yulin Wang Renping Zhou Yizeng Han Jiayi Guo Zhiyuan Liu Yuan Yao Gao Huang 107 5 0 11 Nov 2024
Moving Off-the-Grid: Scene-Grounded Video Representations Sjoerd van Steenkiste Daniel Zoran Yi Yang Yulia Rubanova Rishabh Kabra ... Thomas Keck João Carreira Alexey Dosovitskiy Mehdi S. M. Sajjadi Thomas Kipf 77 4 0 08 Nov 2024
Autoregressive Models in Vision: A Survey Jing Xiong Gongye Liu Lun Huang Chengyue Wu Taiqiang Wu ... Hao Fei Guillermo Sapiro Jiebo Luo Ping Luo Ngai Wong VGen 196 14 0 08 Nov 2024
Kernel Approximation using Analog In-Memory Computing Julian Büchel Giacomo Camposampiero A. Vasilopoulos Corey Lammie Manuel Le Gallo Abbas Rahimi Abu Sebastian 78 0 0 05 Nov 2024