1.1.4 数据分析的典型手段
上述工业数据分析的特点也决定了技术手段的不同,工业数据分析常常需要融合多类模型,而不仅仅是统计学习算法。
刻画物理世界有3大类模型,如图1-3所示。认知模型提供了一些概念和理念层面的指导,是物理世界在概念和结构的抽象;理论模型中,唯象模型是从输入—输出关系上去逼近物理过程[3] ,主要包括统计模型(包括统计描述与统计学习,本节将统计模型、分析模型、数据挖掘、机器学习等提法等同,不做严格区分)和模拟仿真,机理模型是基于公理体系和简化假设等逻辑体系下的模型;经验模型是在实践中,对过程和决策的经验性总结,包括专家规则和经验公式。当然,不同类别模型也是相互转化的,例如,通常认为开普勒三定律是唯象模型(在广泛被证明前也可以认为是经验公式),但一旦形成相对完善的公理体系,万有引力定律就成了机理模型。
图1-3 刻画物理世界的3大类模型
在行业应用中采用的模型大多是形式化(或部分形式化)模型,所以下面重点讨论理论模型和经验模型,并且不刻意区分专家规则与经验公式(以专家规则为代表讨论)。不同类别模型的特点和适用场景见表1-2,简单来说,机理模型推演能力强,但不够精准(很多理想化假设),统计模型自适应能力强,但不充分(概率意义上的外推),仿真模型对极端情形检验能力强(对系统和策略设计很有用),但通常不解决日常运行情形,专家规则实用,但不完备(有很多反例,逻辑自洽性差)。因此,在解决问题时,需要根据实际问题的情形选择模型的类型,或者采用多种类型的融合。下面重点讨论统计模型及与其他模型的融合。
表1-2 各类模型的特点与适用场景
1.统计模型的应用范式
一般来说,大数据模型的作用与机理复杂度密切相关。本节从产品相似度和机理复杂度两个维度出发,将分析算法应用总结为6个范式,如图1-4所示,在不同的组合情形下,统计模型可以发挥的作用不同。
图1-4 统计模型在不同情形的作用
1)从工业产品的相似度来看,可分为大量相似产品(如风力发电机)和少量定制化产品(如就地建设的化工反应塔)。对于大量相似产品,在数据分析时可以充分利用产品间的交叉信息;而对于少量定制化产品,应深度挖掘其时间维度的信息。
2)从产品机理的复杂度来看,可分为无须了解内部机理的产品(如电子消费品,通常不需要深入元器件内部分析)、简单明确机理产品(如风力发电机)、复杂机理产品(如鼓风机、化工厂)。当工业大数据分析被应用到复杂机理产品时,应更加注重机理模型和专家经验的融合。
2.统计模型与机理模型的融合
在不同场景下,机理模型对物理过程描述的精度不同,因而对其他模型(包括分析模型)的需求也不同,不同工业场景下数据与模型的特性如图1-5所示。微观机理模型通常无法直接用到中观决策,如腐蚀电化学模型无法直接用到地下管道的季度预防性维修计划。很多机理模型在环境(如充分光滑、没有阻力)、模型(如集总参数、刚体、模型参数可以相对精准获得)、动力学形态(如不存在湍流)、初始状态(可测且测量成本可接受)等方面都有一定的前提假设或合理简化,在实际过程中就需要用数据来检验其合理性,或与分析模型融合,进一步提高模型的适用性。
图1-5 不同工业场景下机理模型的可信度
分析模型与机理模型融合的范式有4种,如图1-6所示。
1)分析模型为机理模型做模型校准(Model Calibration),提供参数的点估计或分布估计,如Kalman滤波。
2)分析模型为机理模型做后处理(Post-processing)。例如,利用统计方法对WRF(Weather Research and Forecasting Model)等天气预报模型的结果进行修正;或者利用统计方法综合多个机理模型,提高预测的稳定性。
3)机理模型的部分结果作为分析模型的特征(feature)。例如,在风机结冰预测中,计算出风机的理论功率、理论转速等并将其作为统计分析模型的重要特征。
4)分析模型与机理模型做融合(ensemble)。例如,在空气质量预测中,WRF-CHEM、CMAQ(Community Multiscale Air Quality)等机理模型可及时捕获空气质量的全局动态演化过程,而统计模型可对空气质量的局部稳态周期模式有较高精度的刻画。二者的融合可以发挥两类模型各自的优势。
图1-6 分析模型与机理模型融合的4种范式
3.统计模型与专家规则的融合
在设备异常预警等很多工业数据分析中,大量历史数据没有标记,领域专家通常可以提供少量的异常样本。这时候除了无监督学习(包括异常样本的相似度匹配)方式外,就是采用专家规则与统计模型融合的方式。
专家规则通常不够完备,专家规则中很多参数和阈值通常不够精准,大数据平台可以为专家规则提供一个迭代式验证平台,数据分析师将当前版本的专家规则形式化,用大量历史数据运行,领域专家对关键结果(例如预测为故障状态)进行研究,完善专家规则逻辑,通过这样多次迭代运行,通常可以获得一个相对可靠的专家规则。另外,也可以采用主动学习(Active Learning)[6] 策略,统计学习模型可以挑一些易混淆的样本,让领域专家去标记。这些将在第10章讨论,这里不再赘述。