自然语言处理:基于预训练模型的方法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

数学符号

数与数组

a 标量(整数或实数)

a 向量

A 矩阵

A 张量

In nn列的单位阵

I 单位阵,维度根据上下文确定

vw 词w的分布式向量表示

ew 词w的独热向量表示:[0,···,1,0,···,0],w下标处元素为1

diag(a) 对角阵,对角线上元素为a

索引

ai 向量a中索引i处的元素

ai 向量a中除索引i之外的元素

wij 序列w中第i个元素到第j个元素组成的片段或子序列

Ai,j 矩阵A中第i行、第j列处的元素

Ai, 矩阵Ai

A,j 矩阵Aj

Ai,j,k 三维张量A中索引为(ijk)处的元素

A,i 三维张量A的一个二维切片

集合

A 集合

R 实数集合

{0,1} 含0和1的二值集合

{0,1,···,n} 含0到n所有整数的集合

[ab] ab的实数闭区间

ab] ab的实数左开右闭区间

线性代数

A 矩阵A的转置

AB 矩阵A与矩阵B的Hardamard乘积

det(A) 矩阵A的行列式

[xy] 向量xy的拼接

[UV] 矩阵UV 沿行向量拼接

x·yxy 向量xy的点积

微积分

 yx的导数

 yx的偏导数

xy y对向量x的梯度

Xy y对矩阵X的梯度

Xy y对张量X的梯度

概率与信息论

a⊥b 随机变量a与b独立

a⊥b|c 随机变量a与b关于c条件独立

P (a) 离散变量概率分布

p(a) 连续变量概率分布

a∼P 随机变量a服从分布P

 fx)在分布P (x)下的期望

Var(fx)) fx)在分布P (x)下的方差

Cov(fx), gx)) fx)与gx)在分布P (x)下的协方差

H (x) 随机变量x的信息熵

DKLPQ) 概率分布PQ之间的KL散度

N (µΣ) 均值为µ、协方差为Σ的高斯分布

数据与概率分布

 数据集

xi 数据集中的第i个样本(输入)

yiyi 第i个样本xi的标签(输出)

函数

 由定义域到值域的函数(映射)f

fg fg的复合函数

fxθ) 由参数θ定义的关于x的函数(也可直接写作fx),省略θ

log x x的自然对数

σx) Sigmoid函数

xp xLp范数

x xL2范数

1condition 条件指示函数:如果condition为真,则值为1;否则值为0

以下给出本书中一些常用的写法

• 序列x= x1x2··· xn中第i个词xi的独热向量和词向量,词向量的维度是d

• 词表的大小是

• 时间或者空间复杂度

• 向量vw的余弦相似度为cos(vw)。

• 当优化损失函数时,模型的参数定义为θ

• 一个长度为n的序列x,经过总层数为L的预训练模型编码,最终得到隐含层向量(不强调层数时可略去上标[L]),其中第l层的隐含层表示d表示隐含层维度。