Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books

22 June 2015

Antonio Torralba

Sanja Fidler

ArXiv PDF HTML

Papers citing "Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books"

50 / 523 papers shown

Title
Taxonomy of Abstractive Dialogue Summarization: Scenarios, Approaches and Future Directions Qi Jia Yizhu Liu Siyu Ren Kenny Q. Zhu 29 6 0 18 Oct 2022
Deep Bidirectional Language-Knowledge Graph Pretraining Michihiro Yasunaga Antoine Bosselut Hongyu Ren Xikun Zhang Christopher D. Manning Percy Liang J. Leskovec 36 193 0 17 Oct 2022
StoryER: Automatic Story Evaluation via Ranking, Rating and Reasoning Hong Chen D. Vo Hiroya Takamura Yusuke Miyao Hideki Nakayama 27 20 0 16 Oct 2022
Spontaneous Emerging Preference in Two-tower Language Model Zhengqi He Taro Toyoizumi LRM 21 1 0 13 Oct 2022
Multi-CLS BERT: An Efficient Alternative to Traditional Ensembling Haw-Shiuan Chang Ruei-Yao Sun Kathryn Ricci Andrew McCallum 43 14 0 10 Oct 2022
Transformer-based Localization from Embodied Dialog with Large-scale Pre-training Meera Hahn James M. Rehg LM&Ro 40 4 0 10 Oct 2022
DEPTWEET: A Typology for Social Media Texts to Detect Depression Severities Mohsinul Kabir Tasnim Ahmed Md. Bakhtiar Hasan Md Tahmid Rahman Laskar Tarun Kumar Joarder H. Mahmud Kamrul Hasan 14 45 0 10 Oct 2022
Noise-Robust De-Duplication at Scale Emily Silcock Luca DÁmico-Wong Jinglin Yang Melissa Dell SyDa 39 20 0 09 Oct 2022
InfoCSE: Information-aggregated Contrastive Learning of Sentence Embeddings Xing Wu Chaochen Gao Zijia Lin Jizhong Han Zhongyuan Wang Songlin Hu 21 32 0 08 Oct 2022
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding Kenton Lee Mandar Joshi Iulia Turc Hexiang Hu Fangyu Liu Julian Martin Eisenschlos Urvashi Khandelwal Peter Shaw Ming-Wei Chang Kristina Toutanova CLIP VLM 169 263 0 07 Oct 2022
XDoc: Unified Pre-training for Cross-Format Document Understanding Jingye Chen Tengchao Lv Lei Cui Changrong Zhang Furu Wei 50 13 0 06 Oct 2022
Downstream Datasets Make Surprisingly Good Pretraining Corpora Kundan Krishna Saurabh Garg Jeffrey P. Bigham Zachary Chase Lipton 50 30 0 28 Sep 2022
Learning to Write with Coherence From Negative Examples Seonil Son Jaeseo Lim Youwon Jang Jaeyoung Lee Byoung-Tak Zhang 31 1 0 22 Sep 2022
PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting Hao Xue Flora D.Salim AI4TS 27 138 0 20 Sep 2022
Ranking-Enhanced Unsupervised Sentence Representation Learning Yeon Seonwoo Guoyin Wang Changmin Seo Sajal Choudhary Jiwei Li Xiang Li Puyang Xu Sunghyun Park Alice H. Oh SSL DRL AI4TS 53 15 0 09 Sep 2022
Every picture tells a story: Image-grounded controllable stylistic story generation Holy Lovenia Bryan Wilie Romain Barraud Samuel Cahyawijaya Willy Chung Pascale Fung 26 8 0 04 Sep 2022
Why Do Neural Language Models Still Need Commonsense Knowledge to Handle Semantic Variations in Question Answering? Sunjae Kwon Cheongwoong Kang Jiyeon Han Jaesik Choi 29 0 0 01 Sep 2022
Improving Natural-Language-based Audio Retrieval with Transfer Learning and Audio & Text Augmentations Paul Primus Gerhard Widmer 29 6 0 24 Aug 2022
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks Wenhui Wang Hangbo Bao Li Dong Johan Bjorck Zhiliang Peng ... Kriti Aggarwal O. Mohammed Saksham Singhal Subhojit Som Furu Wei MLLM VLM ViT 54 629 0 22 Aug 2022
MockingBERT: A Method for Retroactively Adding Resilience to NLP Models Jan Jezabek A. Singh SILM KELM 31 0 0 21 Aug 2022
BERTifying Sinhala -- A Comprehensive Analysis of Pre-trained Language Models for Sinhala Text Classification Vinura Dhananjaya Piyumal Demotte Surangika Ranathunga Sanath Jayasena 27 14 0 16 Aug 2022
A Comprehensive Survey of Natural Language Generation Advances from the Perspective of Digital Deception Keenan I. Jones Enes ALTUNCU V. N. Franqueira Yi-Chia Wang Shujun Li DeLMO 39 3 0 11 Aug 2022
The Anatomy of Video Editing: A Dataset and Benchmark Suite for AI-Assisted Video Editing Dawit Mureja Argaw Fabian Caba Heilbron Joon-Young Lee Markus Woodson In So Kweon VGen 50 22 0 20 Jul 2022
MoEC: Mixture of Expert Clusters Yuan Xie Shaohan Huang Tianyu Chen Furu Wei MoE 40 11 0 19 Jul 2022
Language Modelling with Pixels Phillip Rust Jonas F. Lotz Emanuele Bugliarello Elizabeth Salesky Miryam de Lhoneux Desmond Elliott VLM 38 46 0 14 Jul 2022
PLM-ICD: Automatic ICD Coding with Pretrained Language Models Chao-Wei Huang Shang-Chi Tsai Yun-Nung Chen 40 49 0 12 Jul 2022
Knowledge Distillation of Transformer-based Language Models Revisited Chengqiang Lu Jianwei Zhang Yunfei Chu Zhengyu Chen Jingren Zhou Fei Wu Haiqing Chen Hongxia Yang VLM 27 10 0 29 Jun 2022
QAGAN: Adversarial Approach To Learning Domain Invariant Language Features Shubham Shrivastava Kaiyue Wang OOD 27 2 0 24 Jun 2022
VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix Teng Wang Wenhao Jiang Zhichao Lu Feng Zheng Ran Cheng Chengguo Yin Ping Luo VLM 34 42 0 17 Jun 2022
All Mistakes Are Not Equal: Comprehensive Hierarchy Aware Multi-label Predictions (CHAMP) A. Vaswani Gaurav Aggarwal Praneeth Netrapalli N. Hegde 22 4 0 17 Jun 2022
8-bit Numerical Formats for Deep Neural Networks Badreddine Noune Philip Jones Daniel Justus Dominic Masters Carlo Luschi MQ 23 33 0 06 Jun 2022
FinBERT-MRC: financial named entity recognition using BERT under the machine reading comprehension paradigm Yuzhe Zhang Hong Zhang 51 27 0 31 May 2022
Chefs' Random Tables: Non-Trigonometric Random Features Valerii Likhosherstov K. Choromanski Kumar Avinava Dubey Frederick Liu Tamás Sarlós Adrian Weller 33 17 0 30 May 2022
Training Language Models with Memory Augmentation Zexuan Zhong Tao Lei Danqi Chen RALM 242 128 0 25 May 2022
ORCA: Interpreting Prompted Language Models via Locating Supporting Data Evidence in the Ocean of Pretraining Data Xiaochuang Han Yulia Tsvetkov 24 27 0 25 May 2022
The Dialog Must Go On: Improving Visual Dialog via Generative Self-Training Gi-Cheon Kang Sungdong Kim Jin-Hwa Kim Donghyun Kwak Byoung-Tak Zhang 32 10 0 25 May 2022
PLAtE: A Large-scale Dataset for List Page Web Extraction Aidan San Yuan Zhuang J. Bakus Colin Lockard David M. Ciemiewicz Sandeep Atluri Yangfeng Ji Kevin Small Heba Elfardy 35 4 0 24 May 2022
On the Role of Bidirectionality in Language Model Pre-Training Mikel Artetxe Jingfei Du Naman Goyal Luke Zettlemoyer Ves Stoyanov 30 16 0 24 May 2022
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization Shruti Palaskar Akshita Bhagia Yonatan Bisk Florian Metze A. Black Ana Marasović 31 4 0 24 May 2022
Simple Recurrence Improves Masked Language Models Tao Lei Ran Tian Jasmijn Bastings Ankur P. Parikh 85 4 0 23 May 2022
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding Chitwan Saharia William Chan Saurabh Saxena Lala Li Jay Whang ... Raphael Gontijo-Lopes Tim Salimans Jonathan Ho David J Fleet Mohammad Norouzi VLM 84 5,797 0 23 May 2022
Outliers Dimensions that Disrupt Transformers Are Driven by Frequency Giovanni Puccetti Anna Rogers Aleksandr Drozd F. Dell’Orletta 79 42 0 23 May 2022
Richer Countries and Richer Representations Kaitlyn Zhou Kawin Ethayarajh Dan Jurafsky 46 9 0 10 May 2022
Problems with Cosine as a Measure of Embedding Similarity for High Frequency Words Kaitlyn Zhou Kawin Ethayarajh Dallas Card Dan Jurafsky 39 66 0 10 May 2022
Learning to Answer Visual Questions from Web Videos Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 37 33 0 10 May 2022
Go Back in Time: Generating Flashbacks in Stories with Event Temporal Prompts Rujun Han Hong Chen Yufei Tian Nanyun Peng 19 18 0 04 May 2022
A Comparison of Approaches for Imbalanced Classification Problems in the Context of Retrieving Relevant Documents for an Analysis Sandra Wankmüller 33 2 0 03 May 2022
OPT: Open Pre-trained Transformer Language Models Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen ... Daniel Simig Punit Singh Koura Anjali Sridhar Tianlu Wang Luke Zettlemoyer VLM OSLM AI4CE 64 3,500 0 02 May 2022
Teaching BERT to Wait: Balancing Accuracy and Latency for Streaming Disfluency Detection Angelica Chen Vicky Zayats D. D. Walker Dirk Padfield 39 14 0 02 May 2022
Post-Training Dialogue Summarization using Pseudo-Paraphrasing Qi Jia Yizhu Liu Haifeng Tang Kenny Q. Zhu 23 7 0 28 Apr 2022