1.2 估计算法性能评估简介
1.2.1 概述
随着信息融合技术的进步与不断发展,估计问题作为数据融合的重要组成部分,已逐渐成为信息融合理论中不可或缺的技术。在图像融合、目标识别、目标跟踪等领域,都离不开估计算法。与大量估计算法的研究形成鲜明对比的,是对这些领域估计算法的评估研究发展相对滞后,这很有可能在将来成为制约估计算法发展的瓶颈。近年来,随着这一技术被应用于越来越多的领域,对估计技术评估的研究需求变得愈加迫切。举例来说,在军事应用的目标跟踪问题中,估计技术不可或缺,且在很大程度上决定了目标跟踪系统的性能表现。对估计算法进行性能评估的研究,对于图像融合、目标识别、目标跟踪等领域无疑都具有重要意义。
简言之,估计算法性能评估的提出,既有理论上的必要性,更有实践中的迫切性。
性能评估是参照一定标准对评估对象的性能优劣进行评判比较的一种认知过程[42],也是推进信息融合技术发展的重要手段。由于信息融合所涉及的应用范围广泛,在信息融合的不同级别或层次,就会有不同的评估指标;即使针对同一级别,不同文献资料中定义的评估度量指标也不相同。目前,信息融合中对估计算法的性能评估,主要有解析分析法、蒙特卡洛实验法、半实物仿真法、全实物仿真法和实验验证法[9][12]。
解析分析法是一种理论分析的方法,即通过各种方法建立起关于一个或多个性能评估指标的数学模型,利用解析计算或数值求解得到该信息融合系统的效能评估指标的数值,从而对系统进行评估。该方法不需要大量计算,但缺少普遍使用的解析方法,一般只针对某种具体的方法进行分析评定。
蒙特卡洛实验法又称为统计实验法,它采用统计抽样理论近似求解实际问题,是通过大量的计算机模拟来检验系统的性能并归纳出统计结果的一种随机分析方法,其理论基础是概率论中的大数定律。该方法适用于各种情况,是目前信息融合系统性能评估中应用最广泛的一种方法。
半实物仿真法是一种在室内进行的仿真实验评估方法,它用硬件和软件来仿真信源和目标的电磁特性,由计算机控制实验系统,产生典型实验环境中的真实信号,把实际的信息融合系统放置在内场半实物仿真实验工具中,并利用计算机模拟系统工作或运动,以分析和评估信息融合系统的特性。这是一种介于蒙特卡洛实验法和实验验证法之间的方法。
实验验证法是把所研制的信息融合模型或系统放到实际应用环境中,通过实际检验对多源信息融合系统的性能进行评估。该方法可以客观、真实、较为全面地反映信息融合系统的效能特性,但成本较高,实现起来相对困难。
信息融合中估计算法的性能评估,其研究内容主要有图像融合的性能评估[43]、自动目标识别系统的性能评估[49]、目标跟踪系统的性能评估[52]、对态势评估的性能评估[59],以及对融合系统的整体性能进行评估[64][65]。
在评估估计问题的研究中,尽管之前已有人做了一些工作[18][66],但其研究结果大都片面、零碎,能广泛应用的非常有限。与估计算法的发展情况相比,目前对评估问题仍缺乏理论上的分析和足够的重视,很多研究仅仅将估计算法的评估作为研究算法时的附属品,没有单独论述和全面地看待评估问题,因此也缺乏统一的评估标准。
在此领域,近年来涌现了很多新思路,出现了很多新成果。文献[71-73]指出广泛使用的均方根误差度量有诸多缺陷后,提出了几个可从不同方面揭示估计算法性能的度量指标,并对这些度量指标引入了两种分类方法:(1)绝对误差度量(没有参考量)、相对误差度量(有参考量)以及频次统计度量;(2)乐观(侧重于衡量性能有多好)、悲观(侧重于衡量性能有多差)和中立(既不乐观也不悲观)的度量。由于绝对误差度量只侧重于反映估计性能的某一方面,文献[74]对绝对误差度量指标进行了综合,提出了误差谱度量,并对乐观、悲观和平衡的度量进行了严谨的数学描述。这一度量可以绘出一条曲线,给出各方面的估计性能,同时还给出估计误差分布的相对期望水平。文献[75]对误差谱度量的性质和计算做了更进一步的研究,提出了通过梅林(Mellin)变换来解析计算误差谱。不同角度的性能比较可以在实践中帮助工程人员根据应用场景选择适合的估计器,文献[76, 77]基于估计误差聚集度的概念,首先根据应用需求选择一个理想的误差分布,提出了相对于理想误差分布的相对聚集度度量与相对离散度度量;同时还考虑了用Pitman准则进行估计器性能比较,提出了利用估计器之间互信息的相对损失度量和相对增益度量。文献[78]对估计误差的中心趋势进行了评估,并提出了广义的加权平均欧几里得误差(Generalized Weighted Average Euclidean Error),该度量方法在度量估计误差中心趋势方面表现出了很好的稳健性。同时,文献[79-81]提出了估计器的可信度度量,以评估估计器所给出的估计误差协方差矩阵是否可信,并提出了检验可信度度量的准则—— NCI(Noncredibility Indices,不可信度指标)和II(Inclination Indicators,倾向性指标)等。文献[82, 83]应用了NCI这一可信度度量准则。文献[84]提出了用所谓的估计器排序矢量,考虑估计器之间的互信息,对估计算法进行排序。
由于对估计问题的度量近几年才慢慢得到重视,各种度量方法在理论上和应用上都有很多不完善的地方,因此需要国内外学者进行更加深入的探索和研究。相信在不久的将来,该领域一定会取得更加丰硕的成果。
1.2.2 性能评估理论中的基本概念
对估计问题的性能评估,其首要任务是建立起性能评估指标体系和性能评估方法,而性能评估指标体系的建立和评估方法的开展,必然离不开对估计算法和性能评估理论的合理理解。所以,有必要首先介绍一下估计性能评估领域中的几个基本概念:性能评估、性能优化、性能分析。
在工程和应用科学研究中,一般认为有四个要素:问题、描述、求解和评估[85]。第一个要素是提出问题、确定问题、弄清问题;第二个要素是对提出的问题进行理论描述或建模,尤其是数学描述;第三个要素是在描述好的框架里通过各种技术手段进行求解,由于在研究中用到的描述往往有差异,而求解时用到的技术也往往不同,所以当某些理论假设在实际中不成立时,常常得不到最优解,取而代之的往往是次优解;而第四个要素研究的内容是对所求得的解的好坏优劣进行性能评估。
首先需要说明的是性能评估、性能优化、性能分析三者的关系;它们彼此紧密结合在一起,却又有着内在的不同。简单来说,性能优化是基于理论上的准则(即目标函数,通常是基于费用或者代价的数学描述),使目标函数值达到最优,并找出目标函数的最小值或最大值的过程;性能评估是基于设计好的性能度量准则对系统或者估计参数等进行优劣评定;而性能分析旨在开发一个性能模型,对影响系统性能的各因素进行内在的分析,以发现系统的潜在问题或者对系统的内部性能有较好的把握。
实际中的性能评估指标与进行性能优化时所用到的优化准则有着紧密的关系,它们都从某种意义上反映性能的优劣,但彼此又有区别[86]。性能评估度量就像一把量化性能的尺子,而优化准则在某种意义上定义了一个问题的解的最优性。优化准则作为开发和设计算法的基础,把估计问题转化成了优化问题;因此,相对严格的要求是它应当具备数学上的可解性,否则在优化时用起来将很困难。粗略地讲,大部分的优化准则作为估计器要优化的目标函数,应当具备数学上的可解性,而不仅仅是理论意义上的性能度量;但作为性能评估时用到的性能度量则完全不考虑这一点。
性能分析和性能评估之间同样有差异。性能分析所关心的是性能和影响性能好坏的因子之间的内在关系,一般通过定性或定量的分析,了解系统的各个因素对性能的影响,因而依赖于分析工具。目前,“性能分析”的概念在软件工程中用得相对较多。性能分析是以收集程序运行时的信息为手段研究程序行为的分析方法,是一种动态程序分析的方法。其目的在于决定程序的哪部分应该被优化,从而提高程序的速度或者内存使用效率,可由程序的源代码或是可执行文件来执行。而性能评估旨在客观地对性能或者行为进行评估,它依赖于性能度量的指标,要求这些指标可计算、有公正性,且能很好地解释。
1.2.3 性能评估指标分类
1.绝对度量、相对度量与频次统计度量
在估计算法性能评估的研究中,现有的评估方法大多不参照任何参考量,而直接对估计误差做某种意义上的平均。我们称这一类指标为绝对误差度量。其中,广泛应用的均方根误差(Root Mean Square Error, RMSE)很容易受大的误差值主导,即在评估结果中过于关注大的估计误差。为了克服这一缺点,文献[71-73]提出了一些新的可供选择的绝对度量指标,如调和平均误差(Harmonic Average Error, HAE)、几何平均误差(Geometric Average Error, GAE)、平均欧几里得误差(Average Euclidean Error, AEE)、误差中位数(Median Error)和误差的众数(Mode)。
但是,在对估计算法进行评估时,这些度量指标明显受评估时具体场景的影响,包括估计量的幅值、数据精度,以及在估计器为贝叶斯估计器时的先验信息。因此,绝对误差度量指标适用于对整个估计系统的评估,而对估计算法的评估则不很理想。这里指的估计系统不仅仅包括估计算法,还包括量测子系统以及别的相关量。记x和分别为待估量和估计量,估计误差为,则当绝对估计误差为时,相对估计误差在待估量x=100时为1%,但在待估量x=2时却为50%。所以,相对估计误差度量更适合于估计算法的性能评估。
相对误差度量是相对于某一个参考量的,正如文献[73]指出的,相对误差常比绝对误差能更好地揭示估计器估计误差的内在特征。举例来说,随着估计量幅值的变化,期望一个估计器的相对误差比绝对误差更稳健是很容易让人接受的。给定两个问题各自的估计器和它们的性能,或者同一问题的不同场景,使用绝对误差度量来进行性能比较将是不合适的,但相对误差度量可以满足要求。因此,评估一个估计算法的性能一般应当使用相对于某一参考量的评估准则。在参考量的选取上,有很多方法:最常用的参考量是待估量的幅值x;还可以选择量测误差,或者先验均值的误差。描述估计误差相对于某一参考量的最简单、最常用的方法,是采用相对于某一参考量的归一化。对任一参考量,都有两种形式:估计误差的平均/参考量的平均;估计误差/参考量的平均。这里的参考量可以是估计的幅值、先验误差、量测误差等。
绝对误差度量和相对误差度量常常是估计误差在某种意义上的绝对或相对的平均;而不同角度的性能比较可以帮助工程人员得到更好的理解,以选择更好、更符合需求的估计器。以军事应用中导弹拦截或者摧毁目标为例,其所关心的不是平均误差,而是估计量应当在被估量的一个邻域内才能保证目标被击中。考虑两个估计器:一个估计器的大部分估计值都在一个被估量期望的邻域内,但有少数值存在很大的误差;另一个估计器有很好的平均误差,但不能保证邻域内的估计量足够多。显然,第一个估计器更能符合要求。此时,频次统计度量就可以满足要求。
频次统计度量包括成功域与成功率、可行域与失败率,以及聚集域与估计值落在聚集域内的概率(聚集概率)[72][73]。此类度量指标可以刻画估计误差落在某一区域的概率大小,适用于Hit-or-miss场景下的评估。
上述三类度量指标在实际中的适用范围如表1-1所示。
表1-1 度量指标的适用范围
2.悲观、乐观和中立的度量
如果一个度量受大的误差主导,就说这个度量是悲观的。换句话说,悲观的度量总是关注估计器某些差的方面的性能,即总是低估估计器的性能。乐观的度量正好与此相反,它受小的估计误差主导,所反映的是估计器好的方面的性能。而一个中立的度量则既不受大的误差主导,也不受小的误差主导,在给出评估结果时能同等考虑估计器好的性能和差的性能。举例来说,如文献[73]所述,工程界广泛使用的RMSE度量就是一个悲观的度量;调和平均误差(HAE)是一个乐观的度量,因为它总是关心较小的估计误差;我们常说的估计误差集合的中位数(又称中值)和估计误差的众数(Mode),既不受大的估计误差主导,也不受小的估计误差主导,因而是中立的度量。
3.综合的度量
因为RMSE、AEE、HAE、GAE等准则只侧重于反映估计性能的某一个方面,在比较两个估计器的性能时,它们甚至会给出相悖的比较结果。也就是说,给定两组估计误差A和B,用一个度量评估时A组好,但换为另一个度量时可能评估结果反而是B组好。因此,需要一个综合的指标,以对被评价对象进行客观、公正、合理、全面的评价。例如,如果要对我国各大学进行综合排名,就要对学校的教学质量、科研成果、师生素质和规模等进行多方面衡量;同样,要判断一个国家或地区发展的好坏,就要从经济、政治、文化、生态、人民生活等方面进行考察,建立相应的指标,采用一定的数学方法,进行综合比较与判断。
在现有的估计算法度量指标中,误差谱度量[74]就是一个综合性的度量。误差谱度量相比于绝对的性能评估准则,其优越性在于它是一个综合性的度量。误差谱度量可以综合考虑大的和小的估计误差,所以在期望对滤波器的性能有一个公正、综合的评估,即评估结果既不受小的误差值主导,又不受大的误差值主导时,就必须用误差谱这一综合性的度量指标。
在估计算法性能评估问题中,误差谱度量因其可以从多个角度同时揭示估计性能,可以同时反映估计器好的性能有多好以及差的性能有多差,因而是一个非常有效的度量;但由于它是针对参数估计的,有其应用上的局限性。在估计跟踪问题中,待评估的系统通常是动态系统,即系统状态是随着时间变化的。如何对动态系统进行评估并找到一个更加有效的度量方法呢?有学者提出动态误差谱(Dynamic Error Spectrum, DES)度量的概念;这一度量把同一时刻的多个评价指标“合成”为一个整体性的度量,因而在对动态系统进行评估时,它是非常有效的。