Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books

22 June 2015

Antonio Torralba

Sanja Fidler

ArXiv PDF HTML

Papers citing "Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books"

50 / 523 papers shown

Title
Power Hungry Processing: Watts Driving the Cost of AI Deployment? Sasha Luccioni Yacine Jernite Emma Strubell 44 161 0 28 Nov 2023
Argumentation Element Annotation Modeling using XLNet Christopher M. Ormerod Amy Burkhardt Mackenzie Young Susan Lottridge 28 2 0 10 Nov 2023
Pre-training LLMs using human-like development data corpus Khushi Bhardwaj Raj Sanjay Shah Sashank Varma 32 6 0 08 Nov 2023
Large language models implicitly learn to straighten neural sentence trajectories to construct a predictive representation of natural language Eghbal A. Hosseini Evelina Fedorenko LLMSV 28 4 0 05 Nov 2023
Understanding the Role of Input Token Characters in Language Models: How Does Information Loss Affect Performance? Ahmed Alajrami Katerina Margatina Nikolaos Aletras AAML 19 1 0 26 Oct 2023
Bridging Information-Theoretic and Geometric Compression in Language Models Emily Cheng Corentin Kervadec Marco Baroni 34 17 0 20 Oct 2023
From Multilingual Complexity to Emotional Clarity: Leveraging Commonsense to Unveil Emotions in Code-Mixed Dialogues Shivani Kumar S. Ramaneswaran Md. Shad Akhtar Tanmoy Chakraborty 33 23 0 19 Oct 2023
TabuLa: Harnessing Language Models for Tabular Data Synthesis Zilong Zhao Robert Birke Lydia Y. Chen LMTD 43 29 0 19 Oct 2023
Analyzing Textual Data for Fatality Classification in Afghanistan's Armed Conflicts: A BERT Approach Hikmatullah Mohammadi Ziaullah Momand Parwin Habibi Nazifa Ramaki Bibi Storay Fazli Sayed Zobair Rohany Iqbal Samsoor 10 0 0 12 Oct 2023
AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description Tengda Han Max Bain Arsha Nagrani Gül Varol Weidi Xie Andrew Zisserman VGen DiffM 32 36 0 10 Oct 2023
Benchmarking and In-depth Performance Study of Large Language Models on Habana Gaudi Processors Chengming Zhang Baixi Sun Xiaodong Yu Zhen Xie Weijian Zheng K. Iskra Pete Beckman Dingwen Tao 25 4 0 29 Sep 2023
BodyFormer: Semantics-guided 3D Body Gesture Synthesis with Transformer Kunkun Pang Dafei Qin Yingruo Fan Julian Habekost Takaaki Shiratori Junichi Yamagishi Taku Komura SLR ViT 21 19 0 07 Sep 2023
A Comparative Analysis of Pretrained Language Models for Text-to-Speech M. G. Moya Panagiota Karanasou S. Karlapati Bastian Schnell Nicole Peinelt Alexis Moinet Thomas Drugman 39 3 0 04 Sep 2023
MultiSChuBERT: Effective Multimodal Fusion for Scholarly Document Quality Prediction Gideon Maillette de Buy Wenniger Thomas van Dongen Lambert Schomaker 13 4 0 15 Aug 2023
Extrapolating Large Language Models to Non-English by Aligning Languages Wenhao Zhu Yunzhe Lv Qingxiu Dong Fei Yuan Jingjing Xu Shujian Huang Lingpeng Kong Jiajun Chen Lei Li 45 66 0 09 Aug 2023
SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore Sewon Min Suchin Gururangan Eric Wallace Hannaneh Hajishirzi Noah A. Smith Luke Zettlemoyer AILaw 22 63 0 08 Aug 2023
Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets Paul Primus Khaled Koutini Gerhard Widmer 32 13 0 08 Aug 2023
Question Answering with Deep Neural Networks for Semi-Structured Heterogeneous Genealogical Knowledge Graphs Omri Suissa M. Zhitomirsky-Geffet Avshalom Elmalech GNN BDL 34 8 0 30 Jul 2023
No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models Jean Kaddour Oscar Key Piotr Nawrot Pasquale Minervini Matt J. Kusner 22 41 0 12 Jul 2023
Vision Language Transformers: A Survey Clayton Fields C. Kennington VLM 28 5 0 06 Jul 2023
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing Yelysei Bondarenko Markus Nagel Tijmen Blankevoort MQ 23 87 0 22 Jun 2023
ClinicalGPT: Large Language Models Finetuned with Diverse Medical Data and Comprehensive Evaluation Guangyu Wang Guoxing Yang Zongxin Du Longjun Fan Xiaohu Li LM&MA ELM AI4MH 19 81 0 16 Jun 2023
Stochastic Re-weighted Gradient Descent via Distributionally Robust Optimization Ramnath Kumar Kushal Majmundar Dheeraj M. Nagaraj A. Suggala ODL 32 6 0 15 Jun 2023
GKD: A General Knowledge Distillation Framework for Large-scale Pre-trained Language Model Shicheng Tan Weng Lam Tam Yuanchun Wang Wenwen Gong Yang Yang ... Jiahao Liu Jingang Wang Shuo Zhao Peng-Zhen Zhang Jie Tang ALM MoE 33 11 0 11 Jun 2023
Mixture-of-Domain-Adapters: Decoupling and Injecting Domain Knowledge to Pre-trained Language Models Memories Shizhe Diao Tianyang Xu Ruijia Xu Jiawei Wang Tong Zhang MoE AI4CE 13 36 0 08 Jun 2023
Parameter-Efficient Fine-Tuning without Introducing New Latency Baohao Liao Yan Meng Christof Monz 24 49 0 26 May 2023
Towards A Unified View of Sparse Feed-Forward Network in Pretraining Large Language Model Leo Liu Tim Dettmers Xi Lin Ves Stoyanov Xian Li MoE 26 9 0 23 May 2023
DAPR: A Benchmark on Document-Aware Passage Retrieval Kexin Wang Nils Reimers Iryna Gurevych 18 5 0 23 May 2023
Language-Agnostic Bias Detection in Language Models with Bias Probing Abdullatif Köksal Omer F. Yalcin Ahmet Akbiyik M. Kilavuz Anna Korhonen Hinrich Schütze 41 1 0 22 May 2023
Investigating the Role of Feed-Forward Networks in Transformers Using Parallel Attention and Feed-Forward Net Design Shashank Sonkar Richard G. Baraniuk 16 3 0 22 May 2023
Discovering Universal Geometry in Embeddings with ICA Hiroaki Yamagiwa Momose Oyama Hidetoshi Shimodaira 31 15 0 22 May 2023
Evaluating Prompt-based Question Answering for Object Prediction in the Open Research Knowledge Graph Jennifer D'Souza Moussab Hrou Sören Auer 24 2 0 22 May 2023
TADA: Efficient Task-Agnostic Domain Adaptation for Transformers Chia-Chien Hung Lukas Lange Jannik Strötgen 30 9 0 22 May 2023
i-Code V2: An Autoregressive Generation Framework over Vision, Language, and Speech Data Ziyi Yang Mahmoud Khademi Yichong Xu Reid Pryzant Yuwei Fang ... Yu Shi Lu Yuan Takuya Yoshioka Michael Zeng Xuedong Huang 17 2 0 21 May 2023
How does the task complexity of masked pretraining objectives affect downstream performance? Atsuki Yamaguchi Hiroaki Ozaki Terufumi Morishita Gaku Morio Yasuhiro Sogawa 33 2 0 18 May 2023
Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in Large Language Models Raj Sanjay Shah Vijay Marupudi Reba Koenen Khushi Bhardwaj Sashank Varma 27 6 0 18 May 2023
Unsupervised Sentence Representation Learning with Frequency-induced Adversarial Tuning and Incomplete Sentence Filtering Bing Wang Ximing Li Zhiyao Yang Yuanyuan Guan Jiayin Li Sheng-sheng Wang 35 6 0 15 May 2023
Using Language Models to Detect Alarming Student Responses Christopher M. Ormerod Milan Patel Harry Wang 51 0 0 12 May 2023
Toward Connecting Speech Acts and Search Actions in Conversational Search Tasks Souvick Ghosh Satanu Ghosh C. Shah 25 2 0 08 May 2023
Pre-training Language Model as a Multi-perspective Course Learner Beiduo Chen Shaohan Huang Zi-qiang Zhang Wu Guo Zhen-Hua Ling Haizhen Huang Furu Wei Weiwei Deng Qi Zhang 34 0 0 06 May 2023
Evaluating BERT-based Scientific Relation Classifiers for Scholarly Knowledge Graph Construction on Digital Library Collections Ming Jiang Jennifer D'Souza Sören Auer J. S. Downie 24 7 0 03 May 2023
Towards Multi-Modal DBMSs for Seamless Querying of Texts and Tables Matthias Urban Carsten Binnig 34 5 0 26 Apr 2023
Vax-Culture: A Dataset for Studying Vaccine Discourse on Twitter M. Zarei M. Christensen S. Everts Majid Komeili 19 1 0 13 Apr 2023
On Efficient Training of Large-Scale Deep Learning Models: A Literature Review Li Shen Yan Sun Zhiyuan Yu Liang Ding Xinmei Tian Dacheng Tao VLM 30 41 0 07 Apr 2023
Effective Theory of Transformers at Initialization Emily Dinan Sho Yaida Susan Zhang 30 14 0 04 Apr 2023
DIME-FM: DIstilling Multimodal and Efficient Foundation Models Ximeng Sun Pengchuan Zhang Peizhao Zhang Hardik Shah Kate Saenko Xide Xia VLM 25 20 0 31 Mar 2023
oBERTa: Improving Sparse Transfer Learning via improved initialization, distillation, and pruning regimes Daniel Fernando Campos Alexandre Marques Mark Kurtz Chengxiang Zhai VLM AAML 13 2 0 30 Mar 2023
Koala: An Index for Quantifying Overlaps with Pre-training Corpora Thuy-Trang Vu Xuanli He Gholamreza Haffari Ehsan Shareghi CLL 27 13 0 26 Mar 2023
Federated Learning without Full Labels: A Survey Yilun Jin Yang Liu Kai Chen Qian Yang FedML 12 26 0 25 Mar 2023
Personalizing Task-oriented Dialog Systems via Zero-shot Generalizable Reward Function A. B. Siddique M. H. Maqbool Kshitija Taywade H. Foroosh 24 12 0 24 Mar 2023