Transformer模型(1/2): 剝離RNN,保留Attention