工业互联网信息安全技术
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.6 工业大数据

在工业互联网时代,数据量将呈指数级增长,而速度,即数据生成、接收和处理的速率,对于反馈到系统以控制实时工业过程的决策至关重要。工业互联网由多种异构系统组成,数据的多样性也非常复杂。大数据已经成为工业互联网的一个关键因素,有研究人员提出,工业企业可以利用基于云的大数据技术,创造竞争优势,提高生产率。

1. 工业大数据基本概念

工业大数据是指工业设备高速运行产生的大量与时间序列相关的数据,通常分布在世界各地的工厂,工业大数据用于辅助管理,生产控制人员根据基本信息做出决策,因此,企业将能够通过提高服务质量来降低维护成本。通用大数据和工业大数据有一些共同的特征,如体积、种类、速度、可变性和准确性。但是,工业大数据的应用程序增加了两种额外的属性:①可视化,指对现有处理数据的非期望发现;②价值,强调分析的目标,从数据中创造新的价值。通用大数据与工业大数据的另一个区别是,工业大数据比一般用途的大数据具有更高的结构化、相关性和更易于分析。这是因为一方面工业大数据是由自动化设备产生的,在这种情形下,环境和过程比社会网络中的人际互动更受控制。另一方面,除了大数据系统基本特点外,工业大数据与生产过程结合,还具有新特性:潜在关系、污损情况、质量状况。潜在关系指的是挖掘出工业生产控制对象实体的关系和捕捉工业生产中出现的典型现象背后的线索;污损情况是指数据本身的数量、完整性方面的概念,它存在于许多工业系统中;质量状况是指处理低质量数据的问题,可能会导致工业生态系统的灾难。

工业大数据技术结构或系统可以从自上而下划分为三层:工业生产业务分析层、工业分析引擎层、工业基础设施层,如图1-6所示。

图1-6 工业大数据结构

工业生产业务分析层:该层负责执行数据分析,分析过程由专门的引擎处理,该引擎使用Map-Reduce基础设施层的资源加速数据的计算和访问进程,并且结合工业生产控制的流程、工艺和产供销状态进行细粒度分析。

工业分析引擎层:该层的基本功能是负责协调大数据生态系统的不同方面。通过Map-Reduce引擎提供分布式和并行处理方面的支持,进而为不同的分析过程提供支持。典型的数据分析引擎工具包括Hadoop、Storm和Spark技术,工业数据分析引擎的主要特征是必须考虑类型多样的工业应用程序。

工业基础设施层:提供存储在生产机器、控制设备和装置群中的低层级的资源,如Apache系统中的开源分布式资源管理框架(MESOS)、单设备存储卡和Hadoop资源管理器(YARN)支持。为存储数据,至少需要一个类似Hadoop分布式文件系统(HDFS)的大数据存储机制,可以安全地访问存储在其中的大型数据集,还可以引用任何其他分布式文件系统(例如,NFS或Lustre)并能够提供大而高效的存储空间。另外,该层还应包括支持数据安全交换、标识和映射的工业信息系统。

2. 工业大数据关键技术

高度分布和异构多态的数据源给工业数据的访问、集成和共享造成多方面的挑战。此外,不同数据源产生的海量数据往往采用不同的表示方法和结构规范进行定义。将这些多样化的数据汇聚在一起将面临不少的问题,因为这些原始数据并没有为数据的集成和管理准备好足够的处理基础。而且,如果数据是分布式的,还缺乏适当的数据处理框架支撑进行大数据分析。因此,工业大数据涉及的关键技术如下:

(1)基于时空关联特性的海量异构数据表示技术。在工业控制领域,每个数据采集设备都放置在特定的地理位置,每个工业数据都有时间戳,时间和空间的强相关是工业数据的一个重要特征,在工业大数据分析和处理过程中,时间和空间是统计分析的重要维度。不同来源产生的海量工业数据集,往往采用不同的表示方法和结构规范进行定义,将这些数据汇集在一起非常困难,因为这些数据没有为数据时空整合和融合做好适当的处理,缺乏一致性标准。而且,如果数据仍然是分布式的,则表示该技术缺乏适当的信息基础设施服务,以支持对数据的统一分析。统计推断过程通常需要某种形式的聚合,这种聚合在分布式工业控制体系结构中可能很昂贵,核心问题是需要找到更便宜的数据近似拟合方法。因此,大规模工业大数据的时空关联表示模型及技术,成为工业大数据分析需要解决的一个重要问题。

(2)基于机器学习的工业大数据有效和高效在线分析技术。工业现场的设备、装置和传感器产生的工业大数据由于采集的数据类型不同,与一般大数据相比具有不同的特点,其中最显著的特点包括异构性、多样性、高噪声和高冗余性。许多工业大数据分析场景(例如,大量检测机器异常和监控生产质量)需要实时给出分析结果。除了通过增加计算设备的数量加速计算过程之外,还需要将在线大规模机器学习算法应用到工业大数据分析框架中,提供有效和高效的知识发现能力。此外,传统的数据管理技术通常是针对单个数据源设计的,能够很好地组织多个模型数据(如许多设备状态流、地理空间和文本数据)的高级数据管理方法仍然需要深入研究。因此,基于机器学习的工业大数据有效和高效在线分析技术是工业大数据分析的瓶颈性技术之一。

(3)面向工业生产过程全生命周期的数据管理与组织。工业互联网涉及的信息物理系统正在以前所未有的速度生成数据,其规模远远超过了存储管理系统技术的发展。而其中面临的一个较为紧迫的技术挑战是当前的存储系统,特别是工业控制设备的小容量、小尺寸存储机制难以承载大体量的数据。一般来说,工业大数据中隐藏的价值取决于数据的及时性、可靠性,因此,需要建立与分析值相关的数据质量保证技术机制,判决哪些接收到的实时数据应该被存储,哪些数据应该立即被抛弃。

(4)工业大数据实时可视化技术。工业大数据分析的海量结果产生了丰富多样的信息,原始数据的良好可视化展现将可以启发解决问题的新思路,而分析结果的可视化又可以揭示内在的知识结构,有助于决策。工业生产数据的可视化也可以揭示大量不同数据因素之间的相关性或因果关系,工业大数据分析场景中的多种模式导致数据视图的高维特性,如空间、时间、机器和业务。这种可视化系统的设计比只存在于一维世界的传统数据呈现系统更复杂,因为系统需要同时与多个设备和用户进行通信,并以不同的频率发送和接收不同格式的数据。目前,虽然可视化数据的方法已经取得了很多进展(最显著的是基于地理信息系统的显示能力),但是分析大规模的工业互联网数据,特别是那些本质上异构的智能工厂数据,还需要在可视化层次和关联方式等方面进一步深化,因为这些数据集合在信息形态上可能表现出难以归一化处理的明显差异。

(5)工业互联网行业数据隐私保护。大多数工业大数据服务提供商由于容量有限,无法有效维护和分析如此海量的数据集,因而需要依赖专业机构、人员或工具分析这些数据,但这也增加了潜在的信息安全风险。例如,事务性数据集通常包括一组完整的操作数据驱动关键业务流程,这类数据一般包含最细粒度的详细信息甚至敏感信息,如信用卡账户和密码。因此,工业大数据分析操作只有在采取适当的、有效的防护措施保护这些敏感数据时,才可以交给第三方处理,并且只有这样才能确保数据本身的安全性。

3. 工业互联网数据供应链

工业互联网数据供应链技术是工业互联网大数据的发展趋势,在讨论技术细节之前,设想以下的生产场景:一家中小规模的工业制造企业为满足各种客户需求,需要生产多个钣金零件,该企业自动化程度很高,拥有最先进的钣金冲床,而该冲床有许多子系统。其中一些子系统由专业公司提供给冲床制造商。例如,一旦子系统是冲压智能驱动和集成电机,则该子系统就将有自己的一套传感器、控制器和嵌入式软件。最终该制造企业将委托另外的工业自动化咨询公司将机器集成到整个生产控制系统中。于是,该方案包括三个主要参与者:企业经营管理者(与工业自动化咨询公司合作)、钣金冲床制造商和智能驱动制造商。根据工业互联网的愿景,所有这些参与者都将可以从日常运营中产生的数据获益。例如,企业经营管理者可以优化调度和生产过程,提高生产能力和降低成本。钣金冲床制造商和智能驱动制造商可以了解他们的设备如何在现场操作,并可以将警报和错误与生产条件和机器设置相关联,这种相关性可用于调整某些设置或完全更新其设备的固件版本。并且,该解决方案的三个参与者获得这些收益几乎没有任何障碍,工厂所有者(连同工业自动化咨询公司)最终决定哪些数据可以公开。通常情况下,如果没有立竿见影的成果,数据安全隐私保护方面的规定将会要求避免向外部世界公开任何制造企业的内部数据。如果工厂所有者决定让钣金冲床制造商访问他的设备,那么接下来钣金冲床制造商就有权决定智能驱动制造商何时可以访问有关其设备的数据。值得注意的是,为更灵活地开展工业制造数据交换而进行的合作与协同过程,将能够使每个参与方获益,特别是可以分析某些数据集进而获得高价值的特殊信息。

通过对上述应用场景的分析,可以深入了解数据供应链的概念。在冲孔工具磨损分析与检测的场景需求中,如果冲孔工具不够锋利,金属板会卡在冲头中。如果在高度自动化的生产线中没有人工监督,这种错误或缺陷可能会导致整个轮班的生产停止。由于冲压的金属板厚度和材料多种多样(对刀具的磨损方式不同),因此仅计算冲头的数量无法准确预测刀具何时需要进行锐化处理。一般情况下,机器生产商是凭借经验进行处理的,即当刀具变钝时,智能驱动制造商将以不同于刀具锋利时的方式耗费电量。出现这种情况时,机器制造商一般会向工厂所有者解释潜在的可能性并提出访问机器的需求,而工厂所有者将向机器制造商提供对机器的访问及工厂正在使用的工具的详细信息,机器制造商通过存储当前绘制的时间序列演化过程进行研究分析。同时,时间序列连同相关的生产条件信息,会被转发给智能驱动制造商,智能驱动制造商将对其进行分析,并设计或训练预测刀具磨损情况的模型,而新发现的知识将立即被智能驱动制造商编码并与新版本的冲床控制器软件一起发布。上述数据供应链对所有工业生产制造参与者都有直接好处,智能驱动制造商可以直接将他的分析报告提交给机器制造商,加强他们之间的联系。反过来,机器制造商的机器有了新的功能,这将有可能加强与客户的关系,并产生新的订单。为了实现这一设想,必须解决许多问题,包括技术问题和组织问题。

开放式消息接口(O-MI)和开放式数据格式(O-DF)标准规范是推动工业互联网数据供应链发展的重要技术支撑。开放式物联网工作组有一个非常清晰和雄心勃勃的愿景:Web使用HTTP协议传输HTML格式的信息,这些信息在浏览器中呈现并供人类使用,而物联网将使用O-MI传输O-DF有效载荷,这些有效载荷将主要由信息系统使用。这两种协议的最初想法和需求来自PROMISE EU FP6项目,在该项目中,实际工业应用需要收集和管理涉及重型和个人车辆、家用设备、机械设备等许多领域的产品实例的信息,如传感器读数、警报、制造、拆卸和供应链事件等,这些信息与整个产品生命周期相关的其他信息需要在不同组织的产品和系统之间进行交换。其主要目标是找到中间智能生产和后端信息系统之间可以进行无缝通信的解决方案,这种功能通常被称为闭环产品生命周期管理(CL2M)。可以基于这些实际应用的需求,确定并扩展关键功能需求,为大规模可扩展的工业互联网系统提供更通用的解决方案。由于在没有广泛修改或扩展的情况下,无法确定满足这些要求的现有标准,PROMISE协议使用者们开始致力于研究满足需求的规范,最终实现O-MI和O-DF的开发和使用标准化。O-DF被指定为可扩展的XML模式,它的结构是一种层次化的结构,其顶部元素是“Objects”元素。O-MI标准是一种Web协议,其目的是将物理产品数据(包括传感器、执行器和任何其他机器信息)从本地内部网公开并传输给连接Internet的任何其他目的相关用户。