自然语言处理：基于预训练模型的方法

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

上一章目录下一章

数学符号

数与数组

a　标量（整数或实数）

a　向量

A　矩阵

A　张量

I_n　n行n列的单位阵

I　单位阵，维度根据上下文确定

v_w　词w的分布式向量表示

e_w　词w的独热向量表示：[0，···，1，0，···，0]，w下标处元素为1

diag（a）　对角阵，对角线上元素为a

索引

a_i　向量a中索引i处的元素

a₋_i　向量a中除索引i之外的元素

w_i_：_j　序列w中第i个元素到第j个元素组成的片段或子序列

A_i，j　矩阵A中第i行、第j列处的元素

A_i，_：　矩阵A第i行

A_：_，j　矩阵A第j列

A_i，j，k　三维张量A中索引为（i， j， k）处的元素

A_：_，_：_，i　三维张量A的一个二维切片

集合

A　集合

R　实数集合

{0，1}　含0和1的二值集合

{0，1，···，n}　含0到n所有整数的集合

[a， b]　a到b的实数闭区间

（a， b]　a到b的实数左开右闭区间

线性代数

A^⊤　矩阵A的转置

A⊙B　矩阵A与矩阵B的Hardamard乘积

det（A）　矩阵A的行列式

[x；y]　向量x与y的拼接

[U；V]　矩阵U 与V 沿行向量拼接

x·y或x^⊤y　向量x与y的点积

微积分

　y对x的导数

　y对x的偏导数

∇_xy　y对向量x的梯度

∇_Xy　y对矩阵X的梯度

∇_Xy　y对张量X的梯度

概率与信息论

a⊥b　随机变量a与b独立

a⊥b|c　随机变量a与b关于c条件独立

P （a）　离散变量概率分布

p（a）　连续变量概率分布

a∼P　随机变量a服从分布P

或　f （x）在分布P （x）下的期望

Var（f（x））　f （x）在分布P （x）下的方差

Cov（f（x）， g（x））　f （x）与g（x）在分布P （x）下的协方差

H （x）　随机变量x的信息熵

D_KL（P∥Q）　概率分布P 与Q之间的KL散度

N （µ，Σ）　均值为µ、协方差为Σ的高斯分布

数据与概率分布

　数据集

x^（ⁱ^）　数据集中的第i个样本（输入）

y^（ⁱ^）或y^（ⁱ^）　第i个样本x^（ⁱ^）的标签（输出）

函数

　由定义域到值域的函数（映射）f

f ◦g　f 与g的复合函数

f （x；θ）　由参数θ定义的关于x的函数（也可直接写作f （x），省略θ）

log x　x的自然对数

σ（x）　Sigmoid函数

∥x∥_p　x的L^p范数

∥x∥　x的L²范数

1^condition　条件指示函数：如果condition为真，则值为1；否则值为0

以下给出本书中一些常用的写法

• 序列x= x₁x₂··· x_n中第i个词x_i的独热向量和词向量，词向量的维度是d。

• 词表的大小是。

• 时间或者空间复杂度。

• 向量v和w的余弦相似度为cos（v， w）。

• 当优化损失函数时，模型的参数定义为θ。

• 一个长度为n的序列x，经过总层数为L的预训练模型编码，最终得到隐含层向量（不强调层数时可略去上标^[^L^]），其中第l层的隐含层表示，d表示隐含层维度。

上一章目录下一章