我们遇到的第一个问题就是数据的处理。对于计算机来说,直接的文本文字是计算机所不能理解的,因此一个简单的办法就是将文字转化成数字符号进行替代,之后对每个数字生成一个独一无二的“指纹”,也就是“词嵌入(embedding)”。在这里只需要将其理解成使用一个“指纹”来替代汉字字符。代码处理如下:
(1)创建3个“容器”,对切分出的字符进行存储。
(2)读取字符和文本。
(3)读取字符并获得字符的长度。
(4)将文本内容转换成数字符号,并对长度进行填充。