14-transformers

发表于 2021-04-26 更新于 2022-03-07 分类于 Class ， CS224N 阅读次数：本文字数： 132 阅读时长 ≈ 1 分钟

Transformers and Self-Attention

序列化的模型类似于RNN，存在几个问题：

Sequential computation的计算限制了并行计算
没有对于short和long dependencies的显式建模
我们希望能够建模层级

对于迁移不变性的解释。