2.1.1 Transformer架构:融入注意力机制的革命性模型