
上QQ阅读APP看书,第一时间看更新
7.提高模型精度
默认情况下,xSegmenter程序在训练声学模型时并不需要用户提供已经切分的、带有时间标记信息的语音材料,而是采用HCompV工具获得全部训练样本的总体均值和方差等数据,并以此初始化各个音素的声学模型,然后直接执行HERest过程。这样处理的好处是简便,缺点是容易造成声学模型的精度不足,特别是面对小样本的训练数据时,声学模型的精度可能会比较差。为了能够获得相对较好的语音声学模型,此程序容许用户提交含有时间点信息的语音标记材料,并根据音段标注内容及其时间信息执行HInit和HRest等操作,以获得相对较好的语音声学模型。
如果希望提高模型的精度,建议用户先训练一个小样本量的模型,并在得到相应的自动切分结果文件*.TextGrid之后,基于Praat程序手工校准一些TextGrid标注文件中的音素边界,然后再使用Tools文件夹里面的“TextGrid2xLab.scp”脚本程序,基于检校后的TextGrid文件去自动生成带有时间点信息的发音文本文件(*.xLab),并将这些xLab文件放在原始声音文件所在的相同目录之中,然后删除TEMP文件夹中的全部内容并重新运行xSegmenter程序,此时程序会自动检测并去调用*.xLab文件以用于音素模型的初始化过程。
通过这样处理,通常能够在一定程度上提高声学模型的精度,但最终的标注结果仍然还是需要用户去手工校准的。