机器学习:从公理到算法
上QQ阅读APP看书,第一时间看更新

2.3 归类结果分类

归类结果不一定满足归类公理和类表示公理。根据对归类公理的遵守情况,可将归类结果分类。

一致归类结果(consistent categorization result):如果一个归类结果满足归类公理和类表示公理,则该归类结果是一致的,否则该归类结果称为不一致的归类结果。

一般情况下,归类等价公理总是满足的。因此,在忽略归类等价公理的情形下,归类结果可以进行如下分类。

正则归类结果(proper categorization result):如果一个归类结果满足样本可分性公理和类可分性公理,则该归类结果是正则的。

在现实生活中也有这样的例子。如各级行政区划关系。具体说来,北京市有区和自然村或者街道办事处等行政划分。北京市下设16个区,显然,每个区也至少管辖一个自然村或者街道办事处,每个自然村或者街道办事处也只属于一个北京市的一个区。如果将每个自然村或者街道办事处视为一个样例,每个区视为一个类,这样的行政划分符合样本可分公理和类可分公理,是一个正则归类结果。

重叠归类结果(overlapping categorization result):如果一个归类结果满足类可分性公理但不满足样本可分性公理,则该归类结果是重叠归类结果。如图2.2所示。类A和类B有重合,其重合部分的元素既属于A类又属于B类,并不唯一地属于一个类,因此,违反了类可分性公理,类A和类B组成了一个重叠归类结果。

非正则归类结果(improper categorization result):如果一个归类结果不满足类可分性公理,则该归类结果是非正则归类结果。

图2.2 重叠归类结果

正则归类结果在实际机器学习中很常见,重叠归类结果有时在实际应用中也有用。然而,一个好的归类结果不会是非正则归类结果。一个非正则归类结果意味着至少存在一个空类。当给定数据有好的分类时,一个归类方法不希望生成非正则归类结果。两种特殊的非正则归类结果定义如下:

重合归类结果(coincident categorization result):对,如果,则该归类结果是重合归类结果。

完全重合归类结果(totally coincident categorization result):,如果,则该归类结果是完全重合归类结果。

类似地,根据归类等价性公理,划分矩阵可分为下面几类:

正则划分(proper partition):U=[uikc×N是正则划分,如果∀kij((ji)→(uik> ujk))且∀ikj((ji)→(uik> ujk))。

重叠划分(overlapping partition):U=[uikc×N是重叠划分,如果∃kj((ji)∧(uik=ujk=maxlulk))且∀ikj((ji)→(uik> ujk))。

非正则划分(improper partition):U=[uikc×N是非正则划分,如果∃ikj((ji)∧(uikujk))。

非正则划分包括几种特殊情形:

覆盖(covering partition):U=[uikc×N满足∃ijij)∀kuikujk),U=[uikc×N称作覆盖。

重合划分(coincident partition):U=[uikc×N满足∃ijij)∀kuik=ujk),U=[uikc×N称作重合划分。

无信息划分(uninformative partition):Uπ=[π1π2,…,πcT1N称作无信息划分,其中⊗表示Kronecker乘积,1表示全1向量。

绝对无信息划分(absolute uninformative partition):Uc-1=[c-1c×N称作绝对无信息划分。

当一个归类结果不是正则的,理论上有一些对象属于两个或更多的类。即,一些对象处于一些类的边界。基于这个事实,下面给出边界集的定义。

边界集(boundary set):如果N个对象的归类结果为,该结果的边界集定义为:

其中,|Y|表示Y的基。

边界集也可以用相异性映射定义。边界集非空时,归类结果不满足样本可分性公理。