7.6 X射线荧光光谱中专家系统研究现状
罗立强等详细评述了X射线荧光光谱中专家系统与知识工程等的研究进展,介绍了光谱定性专家系统、结合模糊逻辑与模式识别算法的光谱解释系统、知识控制系统及相关领域的研究情况。
7.6.1 XRF专家系统总策略
对于XRF研究领域,目前在定性或半定量分析专家系统方面开展的工作较多,而将定性与定量相结合的报道则相对要少一些。为了实现自动定性分析,主要有3个方面工作要做:a.背景点的选择、测定和拟合;b.谱峰识别;c.干扰判断与扣除。目前,有3种谱处理方式:a.在谱扫描基础上开展的连续谱半定量分析方法;b.采用在可能存在发射线的固定角度进行测量的不连续测定半定量方法;c.采用扫描与定点测量相结合,以弥补各自的不足。为了识别谱峰,一般情况下,将仪器误差近似处理为正态分布,滤去噪声后,使用3σ区分谱峰和背景噪声。谱峰识别多从各被测元素最强谱峰开始,并由大到小。即先测定和识别元素Kα或Lα线,并考虑次强线,即相对应的Kβ、Lβ线,若强度比与理论或实测值在一定范围内相符合,则可确认该元素存在。当鉴别完所有潜在Kα和Lα线后,对于仍然还未确定的谱线,假定其来自于在所测范围内不能发射α系线元素,并仅在记录角附近重复相同识谱策略。剩下的未鉴别谱线则认为来自于被测元素二级线,再执行相同识别策略或与光谱匹配。在谱峰和背景识别确定中,是否存在其他元素谱线干扰是最大影响因素。当存在干扰元素时,可以选用次强线等谱线。如已经确定一元素不存在,则消去该元素和相应所有谱线,否则必须考虑它们对其他元素的影响。在分析谱线附近是否存在谱线重叠,有七种谱图需要考虑:一种是峰值显著高于2倍背景值,存在特征发射线;第二种是谱峰与背景没有显著性区别,无特征线,这两种情况比较简单,易于判别;另外四种则分别呈左低右高的升序或左高右低的降序排列,这时在待测元素谱峰右侧或左侧有干扰峰;最后一种则为两边高,中间低,这表明双侧有峰。是否存在谱线重叠,也需要按分析谱线识别流程进行。为了进行无监控和智能化定量分析,还需要增加自动识别待测样品类型、自我决策选用合适基体校正模式等功能。通常情况下,各种模式和适用样品类别等数据与知识,在建立数据库和知识库时业已预先完成。XRF专家系统的实现,有多种方法和途径可供选择,这里主要介绍其中的3种。
7.6.2 结合模糊逻辑与模式识别算法的光谱解释系统
无论何种测量方式,为了识别谱峰,首先要确定背景。而在计算3σ时,绝大多数情况下并未考虑所有噪声,且一个谱中的噪声大小不能准确测得,而只能估算。针对这种情况,可以采用平滑光谱基线的方法,并根据仪器扫描条件采用噪声积分时间关系线性方程估算光谱噪声s,用以鉴别无峰区域,然后将小于s并已做基线校正的强度数据用来准确估算噪声平均值和标准偏差。然而,无论采用何种方式计算3σ直接用它来区分谱峰和噪声,仍然会冒漏掉潜在有用信息的危险。因此Abbott等不用硬性闭值,而是应用模糊逻辑处理噪声和主、次和痕量元素等因素的非必然性和不确定性影响,并综合运用模糊逻辑、模式识别和渐进解释等算法软件,由专家系统实现反馈报告和建议等过程。在应用模糊逻辑时,首先将两个模糊集间模糊边界定义为谱峰和噪声。由于模糊集成员函数在1-3σ附近陡峭变化,当强度值大于10σ时可以确认为谱峰,小于10σ时则确认概率降低。所得谱峰信息可采用尝试法策略进行解释分析。在使用模糊逻辑与记录光谱相匹配时,通过模糊谱峰与参照谱线间交汇值和最大值计算,并考虑谱线产生的概率加权后,可运用集合函数计算出匹配强度来确定元素存在概率。据此可以得出存在、很可能存在、可能存在和不存在的结论。采用模糊函数表示样品峰位的优点在于它可以克服由于谱线重叠、光谱噪声、仪器漂移和数字化误差等带来观测峰与参照谱线间的差异问题。通过光谱模式识别,可以进一步完善模糊逻辑与尝试法光谱解释策略。Abbott等采用了非分级聚类分析方法,在样品分类的基础上将被测样品与存储的实验或经验知识-参照谱进行比较。该参照谱为已经过了数字化处理和压缩的平均谱或原形谱。根据实验谱与参照谱的相似性程度,可以获得加权匹配强度。采用模式识别匹配加权可以更好地处理噪声数据,提高识别率。
7.6.3 光谱定性解释专家系统
光谱定性解释专家系统采用了波长扫描方式。该系统执行噪声平滑、背景扣除、谱峰识别、重叠峰分解、光谱定性解释等功能。通过用“谓词-规则-过程”,表达领域知识、判断元素存在与否,并采用了将知识进行模块化和参数化设计、允许过程调用各子过程的层次嵌套结构。这在一定程度上弥补了在产生式系统中存在的规则越多越笨的缺点。作为专家系统的核心部分,推理以领域专家解释XRF光谱的过程为基础。在该系统中,知识库内容包括事实和规则子库,可进行插入、删除和修改等操作。工作数据库作为动态工作单元存储推理中间结果,并采用“主-支”链数据结构,主要包括有关元素、特征谱峰、峰域等信息。解释功能则通过输出模块实现。该专家系统解释人工合成样品的准确率为87%。当进一步采用谱峰-特征谱线-元素数据结构网络,并建立起动态数据库后,可以对其中的每一种元素定义一个确定性因子(CF)和相应的计算式,用于定量表述光谱中该元素存在与否的可信性程度。如果一元素的CF>0.5,则该元素几乎肯定存在;如CF<0.4,则该元素不存在;介于0.4~0.5之间时,不能确定。由于系统已将许多领域知识容入计算式或前处理过程中,故在推理机中仅使用了四条规则。该专家系统对70多种类型样品的定性解释结果与领域专家解释的符合率为90%。值得特别注意的是,该研究小组认为特征谱线相对强度比随样品和仪器条件及吸收边效应影响变化较大,故在该法中未使用强度比判据。这一观点与Dane等的处理方式是不同的,Dane等采用基本参数法和相对光谱因子计算相对强度,进而计算同一元素其他级次谱线强度,并用作谱线存在与否的辅助判据。在这两种观点之间并无根本区别,因为在两种方法中都考虑了基体和实验条件影响,并且除在一定闭值条件下可以肯定某元素存在或不存在的判断外,都有一个不能确定其存在与否的识别盲区,只是在处理方式和具体实施途径方面有所不同而已。事实上,这两种专家系统的识别准确率也未见存在显著性差异。但对于任何希望获得好识别率的研究人员来说,如果试图采用强度比作为判据,应该备加小心它们的应用前提和适用范围。
7.6.4 知识控制系统
除单独采用谱扫描或峰角定位测量方式外,还可以将两者相结合。为识别和确定谱峰,先测定多点强度。进行t-检验和F-检验。若检验证明峰值强度显著高于背景强度,则采用曲线拟合确定谱线净强度,否则进行谱线重叠检验。在由曲线拟合确定谱线强度进行谱线识别时,先等距测定15个点,然后采用两种模式拟合谱峰:一种是考虑有一个高斯峰及线性背景方程的情况;另一种模式则是背景仍采用线性方程,但由两个高斯峰来拟合谱峰。随后采用F-检验,如检验结果表明双峰模型残差显著小于单峰模型,则表明存在谱峰重叠,因此选用双峰模型;否则采用单峰模型。在得到分析元素的拟合强度后,通过用基本参数法计算相对理论强度比,可以计算该元素的其他谱线强度。如果该谱线强度小于设定下限,则该谱线不存在;若该谱线强度大于设定上限,则该谱线能够测出;在该谱线为次强线的情况下,则可以用它来证实相应分析线的存在。如该谱线强度处于上下限之间,且为次强线,则该谱线不能用于证实相应分析元素的存在。若运用知识控制策略,并结合谱扫描与定位测量,则可以兼有前者的灵活性和后者的良好检出能力。运用3个样本验证该法,识别准确率为92%。
罗立强的研究小组在神经网络及其在XRF分析中的应用方面积累了丰富经验,他们将神经网络和基本参数法结合起来,提出了神经网络基本参数(NNFP)算法。他们的研究表明,NNFP算法可以显著提高缺少标样情况下的预测准确度。与基于Lachance模式和双曲函数型基体校正模式的理论a系数法相比,NNFP算法在绝大多数情况下非线性基体校正能力更好,而且神经网络模型的预测性能也优于偏最小二乘法。同时,他们的初步研究结果表明NNFP算法比COLA算法的非线性基体校正能力更强。刘银兵介绍了最优线性联想网络在XRF分析中的应用,利用全谱数据,将混合谱作为一个整体考虑,能够识别未知混合谱中是否含有参加过学习的单质谱,不需要进行能量刻度,也不需要确定峰边界道,较少需要专家知识,解谱速度快,用于地质样品中Cu的分析。