Python自然语言理解:自然语言理解系统开发与应用实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.5.7 信息抽取

信息抽取是另一种NLP的应用类型。信息抽取从诸如报纸文章之类的文本中提取结构化信息,这种信息可以用来填充数据库。例如,可以从新闻报道的文本中抽取一个事件的日期、具体时间、参与者和地点等重要信息。这些信息与之前讨论聊天机器人和语音助手时所提到的意图和实体非常相似,我们会发现这两种类型的应用程序使用许多相同的处理方法。

在信息抽取应用程序中,还有一个任务是命名实体识别(Named Entity Recognition,NER),用于识别人物、组织和位置在文本中的指代。在报纸文章等长文本中,通常用多种方法来指代同一个人。例如,“乔·拜登”可能被称为“总统”“拜登先生”“他”,甚至“前副总统”等。在识别对“乔·拜登”的指代词时,信息抽取应用程序还必须避免将“拜登博士”误解为“乔·拜登”,因为“拜登博士”指的是他的妻子。