三、关键词词频统计结果及分析
(一)关键词在全部文献出现的词频统计结果及分析
中医专家提取到的1521个不同的冠心病及其合并病关键词在全部文献中的出现总次数为1113916次,每个关键词的词频范围为0~85022,平均词频为732,这说明其词频变幅较大,充分反映了医家对中医疾病表现的记述各有侧重的特点,而词频范围很宽也表明中医专家选取的关键词较全面地反映了冠心病及其合并病的临床表现。
分析冠心病病名与5个核心症状的代表性关键词词频结果可知(表1-2),这18个冠心病代表性关键词占关键词总数的1.2%,其频次达73968次,占频次总数的6.6%,其平均词频数为4109,为整体水平的5.6倍。这个结果表明,中医专家选取的关键词集中反映了对冠心病认识的核心内容,是具备概括性或代表性的概念,冠心病病症代表性关键词的提取与文献联系密切。此外,对词频大于10000的关键词进行了统计,按词频由大到小顺序排列为泻、惊、喘、汗出、膈、气虚、恶寒、湿热、腹痛、头痛、咳嗽、阴虚、血虚、身热、下利、悸、腹满,可以看出这些高频词或用于判断证候属性,或是有助于辨证的全身症状,这也从另一个侧面体现了关键词库代表性与全面性的统一,证实了关键词库的构建较为成功。
表1-2 冠心病病症代表性关键词词频统计结果
表1-3 词频最高的17个关键词词频统计结果
(二)中医文献出现关键词的词频统计结果及分析
每篇文献的关键词词频可以反映该篇文献与中医冠心病的相关程度。在700篇中医文献中,1521个关键词出现的词频总数为1303091次,每篇文献涵盖关键词的词频范围为0~35786,平均词频为1861。这些关键词在文献中出现的词频范围波动较大,但除《十二经补泻温凉引经药歌》之外,均有命中关键词,体现出中医专家选取的关键词与各篇文献均相关,也在一定程度上反映出冠心病及其合并病症状多样,在各类中医文献中均能找到相关条目,为临床辨治提供启发。
其中关键词词频在5000以上的文献共有48篇。从表1-4中可看出,这些文献涵盖了医经、本草、方剂、临床各科、伤寒金匮、温病、医论医话等书目属类,较有代表性地体现了文献学的各类属性特点。其中,高频关键词出现最多的书籍以明清时期的综合医书类、内科临证类书目居多,这与冠心病及其常见合并病的疾病属性相关,并体现了明清时期内科临床医学成熟与发展的特点。大型本草、方书中关键词出现频次亦较多,这与宋金元时期方书编著与理论升华的历史特点亦较为契合。此外,这些关键词不单纯出现在内科专著中,在妇科、儿科为主的专著中也有体现,可见中医学据象辨证的特点,也提示我们在未来可有侧重地进一步科学利用这些中医经典书目。
表1-4 关键词词频大于5000的中医古文献统计结果
续表
续表
综上,本研究应用Delphi开发环境,对700篇中医古文献进行了领域专家给出的1521个关键词的词频统计分析,得出中医冠心病关键词在古文献中的分布情况、最高频关键词与最相关文献。其统计结果分析表明,中医专家提取的关键词具有代表性和系统性特点,可作为文本挖掘的索引结构,所选文献属类全面,有较好的代表性,可作为进一步文本挖掘的中医文献数据库。该项研究为中医冠心病本体设计与查询提供技术支持,可提高查阅者的查阅速度,降低查阅者选择文献的盲目性,使得查阅者可通过直观输入关键词而得到较全面的检索结果。这样使查阅者能够有更多的时间只关注查找到的信息,而不必再花时间和精力去考虑信息得到的过程,从而为科学应用中医经典文献提供技术支持。