
1.工具下载
在关注“九州语言网”公众号之后,用户可发送消息“xSegmenter”,获得该工具的百度网盘共享地址及其下载密码。
图1 九州语言网微信公众号二维码
下载了xSegmenter.rar程序包之后,将其解压并存放到一个不包含有任何汉字和其他特殊字符的文件路径之中,解压之后的文件目录内容如图2所示:
图2 解压之后的文件目录
Tools文件夹包含了该程序在运行过程中需要调用的HTK工具和一些脚本程序,普通用户不可修改或删除该文件夹中的文件内容,以免导致程序运行出错。
EXAMPLES文件夹包含了普通话、粤语、蒙古语和英语的一些样例数据,例如声音文件(*.wav)、发音文本文件(*.txt)以及发音词典文件(*.dict),用户可据此了解运行此程序所需要的数据文件内容及其格式,也可采用这些样例数据进行练习操作。需要略加注意的是,在这些示例材料中,普通话和粤语材料的发音词典为ANSI编码格式,蒙古语和英语的发音词典为UTF-8编码格式,它们在使用操作上会略有不同,后者需要采取字符编码转换方法对发音文本和发音词典进行相应的预处理。有关字符编码的转换方法,下文将有详述。
用户首次运行xSegmenter程序时,系统会自动生成一个名为setting.ini的参数配置文件,并提示用户修改该配置文件中的运行参数。如果已有的setting.ini文件被用户删除了,重新运行xSegmenter程序,系统还会自动生成一个新的setting.ini文件。
按照系统自动生成的setting.ini文件中的默认参数,直接运行xSegmenter程序可以对EXAMPLES文件夹中的普通话数据进行声学模型训练、音段自动切分与标注等操作。如果用户需要对其他语音数据库进行操作,则应按要求修改setting.ini文件中的相应参数。建议用户在修改参数之前,认真阅读setting.ini文件中的说明内容,以免出现误操作。