大数据管理与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第四节 大数据管理与应用的理论、技术和应用体系

大数据时代在具有云计算、人工智能、物联网等新的技术驱动力的同时,也面临着数据质量难以保证、数据价值密度低、系统架构及分析技术难等方面的挑战。为了更好地进行新一代信息技术的收集、管理和分析,利用大数据挖掘其中蕴含的价值信息,大数据管理与应用工作需要构建合理的理论、技术和应用体系。

一、大数据管理与应用的理论体系

大数据管理与应用的理论体系,以统计、领域知识和机器学习为基础和引领,同时依靠相应的存储、计算和网络平台,对内部和外部的各类大数据和信息进行采集、治理和分析,形成数据可视化展示,为相关人员提供支持,大数据管理与应用的理论体系结构如图1-4所示。

图1-4 大数据管理与应用的理论体系

统计、领域知识和机器学习理论引领大数据管理与应用的整体理论体系。大数据管理与应用往往需要结合三方面的资源——高质量的数据、领域业务知识和数据挖掘软件来进行数据挖掘,这需要依靠统计理论从大量数据中获取有业务价值的洞察力,继而结合相关管理和领域知识将这些业务洞察力以某种形式嵌入到流程中,从而达成目标。在这个过程中,利用机器学习的各种算法构建分析模型是核心步骤。除此之外,为了保证数据挖掘项目的成功实施,还有很多决定性因素,例如问题如何界定、数据如何选取、生成的模型如何嵌入到现有的业务流程中等问题都将直接影响数据挖掘是否能够获得成功。因此,大数据管理与应用的理论体系需要统计、领域知识和机器学习相关理论的引领。

数据分析流程是大数据管理与应用理论体系的核心部分。数据收集过程中,数据源会影响数据的质量和安全性。针对内部数据源和外部数据源,根据具体大数据分析任务进行数据选择,将不适用于数据分析工作的数据剔除,针对有用数据进行数据的采集和存储。在进行数据分析前需要对数据进行一定的预处理,数据预处理环节主要包括数据清理、数据集成、数据归约与数据转换等内容,可以极大提升数据的总体质量,是数据分析的重要前置工作。经过数据预处理后数据可以用于数据分析环节,深入业务场景分析,构建各类不同的数据分析模型,以提供新的数据洞察。最后将结果进行数据展示,数据分析结果具有丰富的呈现方案,包括角色看板、数据大屏等不同数据展示方式。除此之外,数据治理环节应当贯穿整个数据的采集、存储以及处理分析的整个过程。数据治理的最终目标是提升数据的价值,这是企业实现数字战略的基础,是一个管理体系。数据治理由企业数据治理部门发起并推行,包含关于如何制定和实施针对整个企业内部数据的商业应用和技术管理等一系列政策和流程。

大数据管理与应用流程需要依靠相应的计算平台、存储平台和网络平台。对于采集到的内部外部数据,需要构建合适的数据存储平台,实现数据的物理存储,为数据分析工作做好准备。数据分析过程中构建相应的模型和数据查询机制,并最终提供数据可视化结果,这需要依靠相应的数据计算平台和网络平台,利用大数据相关计算框架实现更加快速、高效的数据计算和处理展示。

二、大数据管理与应用的技术体系

大数据管理与应用的技术体系以数据资产为核心,包含问题理解、数据理解、数据处理、模型建立、模型评估和模型部署6个环节,如图1-5所示。大数据管理与应用过程是循环往复的探索过程,这6个步骤在实践中并不是按照直线顺序进行的,而是在实际执行过程中时常反复。例如在数据理解阶段发现现有的数据无法解决问题理解阶段提出的问题时,就需要回到问题理解阶段重新调整和界定问题;到了模型建立阶段发现数据无法满足建模的要求,则可能要重新回到数据处理过程上;到了模型评估阶段,当发现建模效果不理想的时候,也可能需要重新回到问题理解阶段审视问题的界定是否合理,是否需要做些调整。

图1-5 大数据管理与应用的技术体系

问题理解阶段主要完成对问题的界定,以及对资源的评估和组织,这一环节需要确定问题目标,同时需要做出形势评估并确定下一步数据挖掘目标,从而进一步制订项目计划。

数据理解阶段主要完成的是对数据资源的初步认识和清理,这一阶段需要收集原始数据并进行数据描述,进一步进行数据的探索性分析,最后对数据质量做出评估。

数据处理阶段主要完成在建立模型之前对数据的最后准备工作,包括选择数据并对数据进行清理,实现数据的重构和整合等工作内容。数据挖掘模型要求的数据是一张二维表,而在现实世界中,数据往往被存储在不同的数据库或者数据库中的不同数据表中。数据处理阶段将把这些数据集整合在一起,生成可以建立数据挖掘模型的数据集和数据集描述。

模型建立是大数据管理与应用技术体系的核心阶段,这一步骤将选择建模技术并对其进行评估,进而产生检验设计,最后完成模型参数的设定,建立模型并对模型的各参数做出调整。

模型评估是大数据管理与应用技术体系流程中非常重要的环节,这一步将直接决定模型是否达到了预期的效果,还是必须重新进行调整。模型评估可以分为两个部分:一个是技术层面,主要由建模人员从技术角度对模型效果进行评价;另一个是问题层面,主要由业务人员对模型关于现实问题的适用性进行评估。这一阶段主要进行的工作是筛选模型并回顾和查找疏漏,确定下一步工作内容。

模型部署阶段是将已经建立并通过评估的数据挖掘模型进行实际部署的过程。这一阶段将产生结果发布计划,建立对模型进行监测和维护的机制,生成最终的数据挖掘报告。最后进行项目回顾,总结项目中的经验教训,为以后的数据挖掘项目进行经验积累。

三、大数据管理与应用的应用体系

大数据管理与应用的应用体系同样是以数据资产为核心,包含问题理解、数据理解、数据处理、模型建立、模型评估和分析报告6个环节的循环往复的探索过程,如图1-6所示。大数据管理与应用中的应用体系与技术体系的主要区别在于每次循环最后阶段的工作内容,不同于技术体系需要进行模型部署,大数据管理与应用的应用体系在经过问题理解、数据理解、数据处理、模型建立、模型评估环节后,还需要完成分析报告这一项工作内容。

图1-6 大数据管理与应用的应用体系

分析报告阶段是运用大数据管理与应用的相关技术模型结果解决现实问题的过程,这一阶段将实现整个大数据管理与应用体系流程最终的价值,将生成最终的大数据分析报告以及报告演示。相关报告中蕴含的潜在知识和见解,将被用于改善决策水平,为以后的相关管理者提供支持和帮助。