1.4 机器阅读理解任务的测评方式
机器阅读理解类似于人类的阅读理解任务,即考核阅读者/模型对文章内容的理解能力。和数学计算不同,阅读理解需要设计专门的指标来验证模型的语义理解能力。众所周知,测评人类阅读理解能力通常采用问答形式,即要求阅读者回答与文章相关的问题。因而测评机器阅读理解模型也可以采用相同的形式,让模型回答与文章相关的问题。本节将介绍机器阅读理解任务中常见的测评方式。
1.4.1 机器阅读理解的答案形式
当前,大部分机器阅读理解任务均采用问答式测评:设计与文章内容相关的自然语言式问题,让模型理解问题并根据文章内容作答。为了评判答案的正确性,一般有如下几种形式的参考答案。
❏ 多项选择式。即模型需要从给定的苦干选项中选出正确答案。
❏ 区间答案式。即答案限定是文章中的一个子句,需要模型在文章中标明正确的答案起始位置和终止位置。
❏ 自由回答式。即不限定模型生成答案的形式,允许模型自由生成语句。
❏ 完形填空式。即在原文中除去若干关键词,需要模型填入正确单词或短语。
此外,一些数据集还设计了“无答案”问题,即一个问题在文章中可能没有的答案,需要模型输出“无法回答”(unanswerable)。
在以上答案形式中,多项选择和完形填空属于客观类答案,测评时可以将模型答案直接与正确答案进行比较,并以准确率作为评测标准,易于计算。
区间式答案属于半客观类答案,可以将模型答案直接以字符串形式与标准答案进行比较,完全相同时得分为1,否则为0,这种衡量标准称为精确匹配(exact match)。如果标准答案为“上午|八点”,模型作答“是|上午|八点”,精确匹配分数为0分,但其实模型答案已非常接近标准答案。因此,对于区间式答案,还有一种衡量标准称为F1,它是单词准确率和召回率(recall)的调和平均数,即。准确率是指在模型给出的答案中有多大比例的单词在标准答案中出现;召回率是指在标准答案中有多大比例的单词在模型给出的答案中出现。表1-2所示为计算答案精确匹配和F1分数的示例。从中可以看出,F1分数可以在答案部分正确时给出部分分。
表1-2 机器阅读理解答案的精确匹配和F1计算示例
自由回答式答案是最为灵活的一种答案形式。理想的测评标准是,当模型答案和标准答案语义完全相同时得满分,否则得部分分或不得分。但是,要判断两段语句是否表达相同的语义,其本身就是很复杂的课题,没有很好的解决方法。而如果完全采用人工评分,效率又太低,而且标准难以统一。因此,一般采用单词水平的匹配率作为自由式答案的评分标准。常见的标准有ROUGE、BLEU和METEOR等。下面我们先来看评测标准ROUGE。
1.4.2 自由回答式答案评分标准ROUGE
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种基于召回率的文本相似性度量方法,用于衡量标准答案中的单词和短语在模型答案中出现的比例。因为一个问题的答案可能有多种表述方法,ROUGE允许同一个问题有多个标准答案。ROUGE评分有ROUGE-N、ROUGE-S和ROUGE-L等指标。
ROUGE-N用来测评N元组(N-gram)的召回率,其公式如下:
其中,M为模型答案,N元组是指答案中相邻的N个单词组成的短语,counts(A)表示N元组s在标准答案A中出现的次数。ROUGE-N以N元组s在标准答案A中出现的次数和在模型答案M中出现的次数的较小值作为分子,以s在标准答案中出现的次数作为分母,来测量N元组出现的召回率。
ROUGE-S和ROUGE-2(N=2)的定义非常类似,只是ROUGE-S中不要求两个词相邻,而是允许二元组中的两个词在答案中最多相隔Skip个词,其中Skip为参数。例如,“我|很|喜欢|晚上|跑步”中,如果Skip=2,则“我|很”,“我|喜欢”,“我|晚上”都是ROUGE-S所考虑的二元组。
ROUGE-L计算标准答案和模型答案的最长公共子序列(Longest Common Subsequence, LCS)的长度L。这个子序列不一定要在原序列中连续出现。例如,“我|喜欢|这个|学校”和“我|在|这个|学校|时间|很|长”的最长公共子序列是“我|这个|学校”,长度为3。然后,ROUGE-L计算L和标准答案单词个数的比值RLCS、L和模型答案单词个数的比值PLCS,以及它们的调和平均数FLCS。其中FLCS即为ROUGE-L的分值:
其中,β为ROUGE-L的参数。表1-3通过一个示例总结了ROUGE-N、ROUGE-S和ROUGE-L的计算标准。
表1-3 ROUGE评测标准示例
通过比较ROUGE分值和人工评测得分,研究者发现ROUGE值和评测者的主观评价之间有一定关联性,但也有许多不一致的地方。因此,除ROUGE指标外,通常也对自由式答案进行人工评价,包括答案的正确性和流畅度等。