14-transformers 发表于 2021-04-26 更新于 2022-03-07 分类于 Class , CS224N 阅读次数: 本文字数: 132 阅读时长 ≈ 1 分钟 Transformers and Self-Attention 序列化的模型类似于RNN,存在几个问题: Sequential computation的计算限制了并行计算 没有对于short和long dependencies的显式建模 我们希望能够建模层级 对于迁移不变性的解释。