深度学习案例精粹:基于TensorFlow与Keras
上QQ阅读APP看书,第一时间看更新

1.2.2 第二步:数据的处理

我们遇到的第一个问题就是数据的处理。对于计算机来说,直接的文本文字是计算机所不能理解的,因此一个简单的办法就是将文字转化成数字符号进行替代,之后对每个数字生成一个独一无二的“指纹”,也就是“词嵌入(embedding)”。在这里只需要将其理解成使用一个“指纹”来替代汉字字符。代码处理如下:

(1)创建3个“容器”,对切分出的字符进行存储。

(2)读取字符和文本。

(3)读取字符并获得字符的长度。

(4)将文本内容转换成数字符号,并对长度进行填充。