Telegram Channel
'Attention Mechanism' 详细介绍了 Attention 机制的起源和原理。以前也简要描述过 RNN、Attention Transformer 的关系

'Attention? Attention!' 则是更详细地介绍了 Attention 的不同种类和用途。Attention 的关键在于使用 alignment score 从 input 中提取 context vector 作为辅助信息,所以不同的 alignment score 计算方式也就诞生了不同的 attention 类型:

1. self-attention: 每一个输入都和之前的输入计算相关性
2. global/soft attention: 每一个输出都和所有输入计算相关性
3. local/hard attention: 先计算一个输入范围,然后输出只和这个范围内的输入计算相关性

以前介绍过实现 GPT 的 transformer 是用 multi-head attention heads 完全取代 RNN 实现了 seq2seq 的功能。文中还介绍了 attention 的其他一些应用,比如在 Pointer Network 中,让 decoder 可以利用 attention 选择下一轮迭代的 encoder,从而实现让神经网络可以循环迭代解决 irreducible computation 问题。
 
 
Telegram Channel