Title
On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection Xiufeng Song Xiao Guo Junxuan Zhang Qirui Li Lei Bai Xiaoming Liu Guangtao Zhai Xiaohong Liu VGen DiffM 165 11 0 31 Oct 2024
ResiDual Transformer Alignment with Spectral Decomposition Lorenzo Basile Valentino Maiorca Luca Bortolussi Emanuele Rodolà Francesco Locatello 148 2 0 31 Oct 2024
Scale-Aware Recognition in Satellite Images under Resource Constraints Shreelekha Revankar Cheng Perng Phoo Utkarsh Mall Bharath Hariharan Kavita Bala 97 0 0 31 Oct 2024
EchoFM: Foundation Model for Generalizable Echocardiogram Analysis Sekeun Kim Pengfei Jin S. Song Cheng Chen Yiwei Li Hui Ren Xiang Li Tianming Liu Quanzheng Li 83 0 0 30 Oct 2024
Situational Scene Graph for Structured Human-centric Situation Understanding Chinthani Sugandhika Chen Li Deepu Rajan Basura Fernando 470 1 0 30 Oct 2024
Diffusion Beats Autoregressive: An Evaluation of Compositional Generation in Text-to-Image Models Arash Marioriyad Parham Rezaei M. Baghshah M. Rohban CoGe 455 0 0 30 Oct 2024
All or None: Identifiable Linear Properties of Next-token Predictors in Language Modeling Emanuele Marconato Sébastien Lachapelle Sebastian Weichwald Luigi Gresele 128 4 0 30 Oct 2024
Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation Zhaochong An Guolei Sun Yun Liu Runjia Li Min Wu Ming-Ming Cheng Ender Konukoglu Serge Belongie 138 8 0 29 Oct 2024
IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models Hang Guo Yawei Li Tao Dai Shu-Tao Xia Luca Benini MQ 96 2 0 29 Oct 2024
GRADE: Quantifying Sample Diversity in Text-to-Image Models Royi Rassin Aviv Slobodkin Shauli Ravfogel Yanai Elazar Yoav Goldberg 398 3 0 29 Oct 2024
A Large Recurrent Action Model: xLSTM enables Fast Inference for Robotics Tasks Thomas Schmied Thomas Adler Vihang Patil M. Beck Korbinian Poppel Johannes Brandstetter Günter Klambauer Razvan Pascanu Sepp Hochreiter 201 7 0 29 Oct 2024
OFER: Occluded Face Expression Reconstruction Pratheba Selvaraju Victoria Fernandez-Abrevaya Timo Bolkart Rick Akkerman Tianyu Ding F. Amjadi Ilya Zharkov DiffM CVBM 3DH 89 0 0 29 Oct 2024
Do Vendi Scores Converge with Finite Samples? Truncated Vendi Score for Finite-Sample Convergence Guarantees Azim Ospanov Farzan Farnia 189 3 0 29 Oct 2024
Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering Zhilin Zhang Jie Wang Zhanghao Qin Ruiqi Zhu Xiaoliang Gong MedIm 201 0 0 28 Oct 2024
BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks Yunhan Zhao Xiang Zheng Lin Luo Yige Li Xingjun Ma Yu-Gang Jiang VLM AAML 101 6 0 28 Oct 2024
Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models! Arash Marioriyad Mohammadali Banayeeanzade Reza Abbasi M. Rohban M. Baghshah DiffM 129 3 0 28 Oct 2024
Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments Sangmim Song S. Kodagoda A. Gunatilake Marc G. Carmichael Karthick Thiyagarajan Jodi Martin LM&Ro 145 1 0 28 Oct 2024
GenUP: Generative User Profilers as In-Context Learners for Next POI Recommender Systems Wilson Wongso Hao Xue Flora D. Salim 48 2 0 28 Oct 2024
R-LLaVA: Improving Med-VQA Understanding through Visual Region of Interest Xupeng Chen Zhixin Lai Kangrui Ruan Shichu Chen Jiaxiang Liu Zuozhu Liu 109 3 0 27 Oct 2024
BlinkVision: A Benchmark for Optical Flow, Scene Flow and Point Tracking Estimation using RGB Frames and Events Yijin Li Yichen Shen Zhaoyang Huang Shuo Chen Weikang Bian ... Keqiang Sun Hujun Bao Zhaopeng Cui Guofeng Zhang Hongsheng Li 3DPC 102 5 0 27 Oct 2024
GiVE: Guiding Visual Encoder to Perceive Overlooked Information Junjie Li Jianghong Ma Xiaofeng Zhang Yuhang Li Jianyang Shi 106 1 0 26 Oct 2024
Chemical Language Model Linker: blending text and molecules with modular adapters Yifan Deng Spencer S. Ericksen Anthony Gitter 145 2 0 26 Oct 2024
Bongard in Wonderland: Visual Puzzles that Still Make AI Go Mad? Antonia Wüst Tim Nelson Tobiasch Lukas Helff Inga Ibs Wolfgang Stammer Devendra Singh Dhami Constantin Rothkopf Kristian Kersting CoGe ReLM VLM LRM 147 3 0 25 Oct 2024
Revealing and Reducing Gender Biases in Vision and Language Assistants (VLAs) Leander Girrbach Yiran Huang Stephan Alaniz Trevor Darrell Zeynep Akata VLM 124 2 0 25 Oct 2024
ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Contrastive Framework Hengyuan Zhang Chenming Shang Sizhe Wang Dongdong Zhang Feng Yao Renliang Sun Yiyao Yu Yujiu Yang Furu Wei 144 6 0 25 Oct 2024
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data Shuhao Gu Jialing Zhang Siyuan Zhou Kevin Yu Zhaohu Xing ... Yufeng Cui Xinlong Wang Yaoqi Liu Fangxiang Feng Guang Liu SyDa VLM MLLM 97 29 0 24 Oct 2024
FreCaS: Efficient Higher-Resolution Image Generation via Frequency-aware Cascaded Sampling Zhengqiang Zhang Ruihuang Li Lei Zhang 102 3 0 24 Oct 2024
Probabilistic Language-Image Pre-Training Sanghyuk Chun Wonjae Kim Song Park Sangdoo Yun MLLM VLM CLIP 468 6 2 24 Oct 2024
Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies Liwen Wang Sheng Chen Linnan Jiang Shu Pan Runze Cai Sen Yang Fei Yang 157 7 0 24 Oct 2024
Fast constrained sampling in pre-trained diffusion models Alexandros Graikos Nebojsa Jojic Dimitris Samaras DiffM 129 1 0 24 Oct 2024
Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation Xiaoyu Zhang Teng Zhou Xinlong Zhang Jia Wei Yongchuan Tang 83 2 0 24 Oct 2024
Diffusion Attribution Score: Evaluating Training Data Influence in Diffusion Models Jinxu Lin Linwei Tao Minjing Dong Chang Xu TDI 90 3 0 24 Oct 2024
Lightweight Neural App Control Filippos Christianos Georgios Papoudakis Thomas Coste Jianye Hao Jun Wang Kun Shao LM&Ro 107 5 0 23 Oct 2024
CLEAR: Character Unlearning in Textual and Visual Modalities Alexey Dontsov Dmitrii Korzh Alexey Zhavoronkin Boris Mikheev Denis Bobkov Aibek Alanov Oleg Y. Rogov Ivan Oseledets Elena Tutubalina MU AILaw VLM 145 5 0 23 Oct 2024
EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning Yaxiong Wang Yijiao Wang Lianwei Wu Lechao Cheng Zhun Zhong Meng Wang VLM 83 0 0 23 Oct 2024
Training Free Guided Flow Matching with Optimal Control Luran Wang Chaoran Cheng Yizhen Liao Yanru Qu Ge Liu 92 4 0 23 Oct 2024
TopoDiffusionNet: A Topology-aware Diffusion Model Saumya Gupta Dimitris Samaras Chong Chen DiffM 139 4 0 22 Oct 2024
The Scene Language: Representing Scenes with Programs, Words, and Embeddings Yunzhi Zhang Zizhang Li Mingyuan Zhou Shangzhe Wu Jiajun Wu 99 7 0 22 Oct 2024
MotionGlot: A Multi-Embodied Motion Generation Model Sudarshan Harithas Srinath Sridhar 148 2 0 22 Oct 2024
SoK: Dataset Copyright Auditing in Machine Learning Systems L. Du Xuanru Zhou M. Chen Chusong Zhang Zhou Su Peng Cheng Jiming Chen Zhikun Zhang MLAU 105 6 0 22 Oct 2024
Conjuring Semantic Similarity Tian Yu Liu Stefano Soatto DiffM 164 0 0 21 Oct 2024
TIPS: Text-Image Pretraining with Spatial awareness Kevis-Kokitsi Maninis Kaifeng Chen Soham Ghosh Arjun Karpur Koert Chen ... Jan Dlabal Dan Gnanapragasam Mojtaba Seyedhosseini Howard Zhou Andre Araujo VLM 115 3 0 21 Oct 2024
Do Audio-Language Models Understand Linguistic Variations? Ramaneswaran Selvakumar Sonal Kumar Hemant Kumar Giri Nishit Anand Ashish Seth Sreyan Ghosh Dinesh Manocha AuLLM VLM 122 1 0 21 Oct 2024
Layout-your-3D: Controllable and Precise 3D Generation with 2D Blueprint Junwei Zhou Xueting Li Lu Qi Ming-Hsuan Yang DiffM 99 4 0 20 Oct 2024
GRS: Generating Robotic Simulation Tasks from Real-World Images Alex Zook Fan-Yun Sun Josef Spjut Valts Blukis Stan Birchfield Jonathan Tremblay 95 4 0 20 Oct 2024
YOLO-RD: Introducing Relevant and Compact Explicit Knowledge to YOLO by Retriever-Dictionary Hao-Tang Tsui Chien-Yao Wang H. Liao ObjD VLM 116 0 0 20 Oct 2024
Reflexive Guidance: Improving OoDD in Vision-Language Models via Self-Guided Image-Adaptive Concept Generation Seulbi Lee J. Kim Sangheum Hwang LRM 445 2 0 19 Oct 2024
Semantically Safe Robot Manipulation: From Semantic Scene Understanding to Motion Safeguards Lukas Brunke Yanni Zhang Ralf Romer Jack Naimer Nikola Staykov Siqi Zhou Angela P. Schoellig 107 5 0 19 Oct 2024
LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes Juliette Marrie Romain Menegaux Michael Arbel Diane Larlus Julien Mairal 3DGS 93 3 0 18 Oct 2024
Zero-shot Action Localization via the Confidence of Large Vision-Language Models Josiah Aklilu Xiaohan Wang Serena Yeung-Levy 107 1 0 18 Oct 2024