v1v2v3v4v5v6v7 (latest)

Attention Is All You Need

12 June 2017

Papers citing "Attention Is All You Need"

50 / 27,143 papers shown

Title
Zero-Resource Neural Machine Translation with Multi-Agent Communication Game Yun Chen Yang Liu Victor O.K. Li 149 48 0 09 Feb 2018
Question-Answer Selection in User to User Marketplace Conversations Girish Kumar Matthew Henderson Shannon Chan Hoang-Diep Nguyen L. Ngoo 50 8 0 06 Feb 2018
Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling Tao Shen Dinesh Manocha Guodong Long Jing Jiang Sen Wang Chengqi Zhang AI4TS 135 144 0 31 Jan 2018
Generating Wikipedia by Summarizing Long Sequences Peter J. Liu Mohammad Saleh Etienne Pot Ben Goodrich Ryan Sepassi Lukasz Kaiser Noam M. Shazeer CVBM 226 801 0 30 Jan 2018
Discrete Autoencoders for Sequence Models Lukasz Kaiser Samy Bengio BDL 94 50 0 29 Jan 2018
Multi-Pointer Co-Attention Networks for Recommendation Yi Tay Anh Tuan Luu S. Hui 3DV 191 290 0 28 Jan 2018
MaskGAN: Better Text Generation via Filling in the______ W. Fedus Ian Goodfellow Andrew M. Dai 123 470 0 23 Jan 2018
Unsupervised Cipher Cracking Using Discrete GANs Aidan Gomez Sicong Huang Ivan Zhang Bryan M. Li Muhammad Osama Lukasz Kaiser GAN 64 59 0 15 Jan 2018
Fix your classifier: the marginal value of training the last weight layer Elad Hoffer Itay Hubara Daniel Soudry 156 102 0 14 Jan 2018
Improved English to Russian Translation by Neural Suffix Prediction Kai Song Yue Zhang Min Zhang Weihua Luo 43 10 0 11 Jan 2018
PixelSNAIL: An Improved Autoregressive Generative Model Xi Chen Nikhil Mishra Mostafa Rohaninejad Pieter Abbeel DRL DiffM BDL GAN 80 276 0 28 Dec 2017
A Flexible Approach to Automated RNN Architecture Generation Martin Schrimpf Stephen Merity James Bradbury R. Socher 59 16 0 20 Dec 2017
Sockeye: A Toolkit for Neural Machine Translation Felix Hieber Tobias Domhan Michael J. Denkowski David Vilar Artem Sokolov Ann Clifton Matt Post 75 215 0 15 Dec 2017
Character-Based Handwritten Text Transcription with Attention Networks Jason Poulos Rafael Valle 49 32 0 11 Dec 2017
Stochastic Answer Networks for Machine Reading Comprehension Xiaodong Liu Yelong Shen Kevin Duh Jianfeng Gao RALM 77 198 0 10 Dec 2017
Multi-channel Encoder for Neural Machine Translation Hao Xiong Zhongjun He Xiaoguang Hu Hua Wu 76 34 0 06 Dec 2017
Distance-based Self-Attention Network for Natural Language Inference Jinbae Im Sungzoon Cho 87 76 0 06 Dec 2017
Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks Salman Mohammed Peng Shi Jimmy J. Lin 88 106 0 05 Dec 2017
Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models Rohit Prabhavalkar Tara N. Sainath Yonghui Wu Patrick Nguyen Zhiwen Chen Chung-Cheng Chiu Anjuli Kannan 80 162 0 05 Dec 2017
Improving the Performance of Online Neural Transducer Models Tara N. Sainath Chung-Cheng Chiu Rohit Prabhavalkar Anjuli Kannan Yonghui Wu Patrick Nguyen Zhiwen Chen AI4TS 97 49 0 05 Dec 2017
State-of-the-art Speech Recognition With Sequence-to-Sequence Models Chung-Cheng Chiu Tara N. Sainath Yonghui Wu Rohit Prabhavalkar Patrick Nguyen ... Katya Gonina Navdeep Jaitly Yue Liu J. Chorowski M. Bacchiani AI4TS 127 1,155 0 05 Dec 2017
Deep Semantic Role Labeling with Self-Attention Zhixing Tan Mingxuan Wang Jun Xie Yidong Chen X. Shi 90 311 0 05 Dec 2017
Relation Networks for Object Detection Han Hu Jiayuan Gu Zheng Zhang Jifeng Dai Yichen Wei ObjD 148 1,230 0 30 Nov 2017
AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks Tao Xu Pengchuan Zhang Qiuyuan Huang Han Zhang Zhe Gan Xiaolei Huang Xiaodong He GAN ViT 131 1,725 0 28 Nov 2017
Population Based Training of Neural Networks Max Jaderberg Valentin Dalibard Simon Osindero Wojciech M. Czarnecki Jeff Donahue ... Tim Green Iain Dunning Karen Simonyan Chrisantha Fernando Koray Kavukcuoglu 98 745 0 27 Nov 2017
Neural Text Generation: A Practical Guide Ziang Xie 57 46 0 27 Nov 2017
SkipNet: Learning Dynamic Routing in Convolutional Networks Xin Wang Feng Yu Zi-Yi Dou Trevor Darrell Joseph E. Gonzalez 126 640 0 26 Nov 2017
Convolutional Image Captioning J. Aneja Aditya Deshpande Alex Schwing VLM 137 361 0 24 Nov 2017
Non-local Neural Networks Xinyu Wang Ross B. Girshick Abhinav Gupta Kaiming He OffRL 366 8,938 0 21 Nov 2017
Speech recognition for medical conversations Chung-Cheng Chiu Anshuman Tripathi Katherine Chou Chris Co Navdeep Jaitly ... Ananth Sankar Justin Tansuwan Nathan Wan Yonghui Wu Xuedong Zhang LM&MA 70 84 0 20 Nov 2017
ATRank: An Attention-Based User Behavior Modeling Framework for Recommendation Chang Zhou Jinze Bai Junshuai Song Xiaofei Liu Zhengchao Zhao Xiusi Chen Jun Gao HAI 95 309 0 17 Nov 2017
Training Simplification and Model Simplification for Deep Learning: A Minimal Effort Back Propagation Method Xu Sun Xuancheng Ren Shuming Ma Bingzhen Wei Wei Li Jingjing Xu Houfeng Wang Yi Zhang 56 24 0 17 Nov 2017
Image Matters: Visually modeling user behaviors using Advanced Model Server T. Ge Liqin Zhao Guorui Zhou Keyu Chen Shuying Liu ... Sui Huang Qing Cui Xiaoqiang Zhu Yu Zhang Kun Gai 83 41 0 17 Nov 2017
Attend and Interact: Higher-Order Object Interactions for Video Understanding Chih-Yao Ma Asim Kadav I. Melvin Z. Kira G. Al-Regib H. Graf 80 145 0 16 Nov 2017
FusionNet: Fusing via Fully-Aware Attention with Application to Machine Comprehension Hsin-Yuan Huang Chenguang Zhu Yelong Shen Weizhu Chen FedML 87 183 0 16 Nov 2017
Motif-based Convolutional Neural Network on Graphs Aravind Sankar Xinyang Zhang Kevin Chen-Chuan Chang GNN 91 42 0 15 Nov 2017
Controllable Abstractive Summarization Angela Fan David Grangier Michael Auli 103 312 0 14 Nov 2017
Classical Structured Prediction Losses for Sequence to Sequence Learning Sergey Edunov Myle Ott Michael Auli David Grangier MarcÁurelio Ranzato AIMat 122 186 0 14 Nov 2017
QuickEdit: Editing Text & Translations by Crossing Words Out David Grangier Michael Auli KELM 71 10 0 13 Nov 2017
Few-Shot Learning with Graph Neural Networks Victor Garcia Satorras Joan Bruna GNN 182 1,241 0 10 Nov 2017
Attend and Diagnose: Clinical Time Series Analysis using Attention Models Huan-Zhi Song Deepta Rajan Jayaraman J. Thiagarajan A. Spanias MLAU 105 456 0 10 Nov 2017
Non-Autoregressive Neural Machine Translation Jiatao Gu James Bradbury Caiming Xiong Victor O.K. Li R. Socher 107 798 0 07 Nov 2017
Weighted Transformer Network for Machine Translation Karim Ahmed N. Keskar R. Socher 84 134 0 06 Nov 2017
Attentional Pooling for Action Recognition Rohit Girdhar Deva Ramanan 135 321 0 04 Nov 2017
Fixing a Broken ELBO Alexander A. Alemi Ben Poole Ian S. Fischer Joshua V. Dillon Rif A. Saurous Kevin Patrick Murphy DRL BDL 101 80 0 01 Nov 2017
Paraphrase Generation with Deep Reinforcement Learning Zichao Li Xin Jiang Lifeng Shang Hang Li OffRL 124 214 0 01 Nov 2017
DCN+: Mixed Objective and Deep Residual Coattention for Question Answering Caiming Xiong Victor Zhong R. Socher 96 109 0 31 Oct 2017
Graph Attention Networks Petar Velickovic Guillem Cucurull Arantxa Casanova Adriana Romero Pietro Lio Yoshua Bengio GNN 526 20,351 0 30 Oct 2017
Phase Conductor on Multi-layered Attentions for Machine Comprehension R. Liu Wei Wei Weiguang Mao M. Chikina 92 22 0 28 Oct 2017
Attending to All Mention Pairs for Full Abstract Biological Relation Extraction Pat Verga Emma Strubell O. Shai Andrew McCallum 3DV 46 11 0 23 Oct 2017