1.1.3 工业数据分析的特点
相对于服务业(如银行、电信等)和互联网的大数据,工业大数据具有很多特点[1,2],例如,工业大数据具有多样、多模态、高通量和强关联等特性,具有很强的上下文信息(Context),这些特性对工业大数据平台提出了新的技术要求,不仅需要高效的数据存储优化,还需要能够通过元数据、索引、查询推理等进行高效便捷的数据读取,实现多源异构数据的一体化管理。
对于工业分析来说,工业数据的特点主要有维度不完备、样本量不足(且严重有偏)、数据蕴含大量上下文信息等特点,这些特点也造成了“拥有的数据非常多,但可用的数据很少”的窘境。
1)维度不完备,数据分析需要集成多个维度的信息,任何一个维度的缺失都会造成分析数据集的缺失。很多分析常常需要一个完整的工业过程,过程序列中的局部中断,可能导致当前数据不能完整勾画出真实的物理过程。另外,有些维度间缺乏精确关联,例如在洗衣液罐装生产线中,考虑到成本和生产节拍,不可能按袋追踪,称重的数据和罐装工艺过程数据做不到一一对应,在对应时只能采用概率模型。
2)样本量不足,且数据样本通常严重有偏(biased)。多数工业系统被设计为具有高可靠性且严格受控的系统,绝大多数时间都在稳定运行,异常工况相对稀缺(对于数据分析来说具有“高价值”)。很多数据在历史上没有被标记,对历史数据的大规模重新标记通常也不可行(工作量大,对标记人员的要求高)。还有一些工业场景要求捕获故障/异常瞬间的高频细微状况,这样才能还原和分析故障发生的原因。最后,设备、传感器、工艺和环境也是在不断变化的,历史数据的有效性也会随着时间而流逝。这些都造成了工业数据分析时的样本量不足。
3)数据蕴含大量上下文信息。工业是一个强机理、高知识密度的技术领域,很多监测数据仅是精心设计下系统运行的部分表征。很多数据间的关系都可以用机理去解释(不需要挖掘),领域知识也提供了很多有用的特征变量(如齿轮箱振动的倒谱),这些隐形信息都大大缩小了数据分析的参数搜索空间。但不幸的是,并不是所有的专家经验或领域知识都是正确的,数据分析仍然需要保持“谨慎的相信”,但不是迷信。