第二节 研究内容
在线健康社区中产生了大量的用户数据,使得对于与疾病、症状和检查相关的健康信息的抽取,疾病、用药和药物效果的关系抽取,以及用户知识行为的研究分析,成为重要的研究方向,具有重要的实践意义。本书研究的主要内容包含四个方面,如图1.1所示。
(1)针对海量的医患问答数据,研究在线健康社区中疾病、症状和检查之间的关系抽取问题。本书通过训练医疗健康领域的词向量,采用Bi-LSTM+CRF技术对医患问答数据进行疾病、症状和检查的实体识别,构建了一个基于字符级和语句级注意力机制的双向门递归神经网络模型(2ATT-BiGRU)关系抽取(分类)模型,进行疾病、症状和检查之间的关系抽取。
(2)针对海量的医患问答数据,对疾病、药物和药物效果进行实体识别,在实体识别的基础上,通过关系抽取模型进行疾病、药物和药物效果之间的关系抽取。针对生命周期的疾病用药健康管理对于疾病控制和预防具有重要意义,本书在疾病、药物和药物效果关系抽取的基础上,利用用户提问中疾病用药的时间序列数据,对医患问答健康社区上提问次数超过5次的1927个用户问答数据进行关系抽取,按照时间序列进行疾病用药生命周期的进展演化分析,其结果可以辅助基于疾病用药的生命周期健康管理。
在关系抽取的基础上,本书研究知识图谱的构建技术,构建了一个基于在线健康社区的知识图谱框架,进行疾病百科的疾病、症状、检查和药物之间的关系抽取,并融合前面抽取的疾病诊断和疾病用药管理的三元组关系,最后构建了一个基于在线健康社区的知识图谱,可以补充和完善现有医学知识库。知识图谱构建为后期的用户知识行为研究提取特征变量奠定了更好的基础,使得用户知识行为研究更加精准和科学。
(3)立足于提高医患问答健康社区用户满意度,增强用户信任,本书研究了在线健康社区的用户采纳一个自己最满意的医生回复知识行为的影响因素。本书基于知识采纳行为的双加工理论,开发了一个概念模型,基于文本分析技术,从信息质量和信息源可信度两个方面提取变量,用实证方法分析哪些因素影响了用户的知识采纳行为,并分析了哪种类型的医生最适合回复用户问题。
(4)虽然在线健康社区有数量庞大的信息,但是用户仍然很难从复杂海量的数据中直接识别出最有用的信息(奥马尔等,2009)。针对各个在线健康平台都在寻求一种机制以帮助用户尽快找到相关且有用的信息,本书从医患问答健康社区用户采纳和点赞的知识行为着手,研究在线健康社区中医生回复的有用性,依据设计科学的思维,以知识采纳行为理论作为研究的核心理论,从中心路径和外围路径提出元需求,进行元设计,并提出设计假设,采用四种机器学习方法识别在线健康社区中医生回复的信息有用性,同当前流行的深度学习技术以及前人的经典研究模型进行对比,证实了本书研究框架具有优势。
图1.1 基于在线健康社区的研究内容框架