大数据分析处理(慕课版)
上QQ阅读APP看书,第一时间看更新

任务实现

任务1.1 根据业务需求选择合适的大数据分析技术

本任务的主要内容:

●对大数据分析案例进行业务需求分析;

●为大数据分析案例选择合适的大数据分析技术。

1.1.1 业务需求分析

在前面的相关知识中,我们介绍了大数据分析的概念、发展过程、应用场景、流程等。那么,当我们在现实中遇到需要使用大数据分析技术来进行分析、得出结论、给出建议的案例时,我们应该怎么做呢?

国内某电信运营商,业务覆盖全国,客户量极其庞大。但这些年来,随着其他运营商的发展,移动通信业务竞争非常激烈,该运营商的客户也出现了严重的流失。是什么因素导致客户流失呢?怎么做才能减少这样的流失?这是该运营商目前亟待解决的问题。

那么,我们就来讨论一下,类似这样的对运营商客户流失因素进行分析的案例应该如何解决。

运营商客户流失因素,一定会涉及多个方面,我们拿到一份关于运营商客户的数据,其中包括以下特征:

●信用等级;

●VIP等级;

●本月话费;

●通话时长;

●通话次数;

●短信发送数;

●上网流量;

●性别;

●年龄。

接下来,我们需要做以下工作:

(1)数据导入;

(2)数据探索与预处理;

(3)数据特征分析;

(4)数据分析与建模;

(5)模型评估;

(6)分析结果的可视化展示。

要想完成这些工作,我们需要选择哪些大数据分析技术呢?

1.1.2 选择大数据分析技术

随着大数据分析技术的发展,大数据分析工具也层出不穷。正如前面相关知识中所讲到的,从传统的统计分析软件,到大数据分析编程语言,再到大数据可视化分析工具,大数据分析工具的使用越来越方便,分析结果的展示方式也越来越多样化。

在本次任务一开始,我们就提出了关于运营商客户流失因素分析的案例,在1.1.1小节我们已经提出了该案例的业务需求。那么应该为这个案例选择什么样的大数据分析技术呢?

在当今大数据及人工智能领域中,Python语言凭借自身的优势脱颖而出,成为使用非常广泛的程序设计语言。说到Python,就不得不提创造这个语言的人,也就是被称为Python之父的吉多·范罗苏姆。1989年,范罗苏姆为了打发时间,决心开发一个新的脚本解释程序,作为ABC语言的一种继承。Python这个单词的意思是蟒蛇,所以它的logo是由两条蟒蛇组成的,如图1-4所示。

图1-4 Python的logo

Python具有以下特点。

第一,开源。Python是一种开源编程语言,使用基于社区的模型开发。它可以在Windows和Linux平台中运行。除此之外,也可以将其移植到其他平台,因为它支持多个平台。

第二,速度快。Python是一种高级语言,它契合原型设计思想,开发者可以使用它快速编码,同时保持代码与执行过程之间的高度透明性。由于这种透明性,代码的维护以及将其添加到多用户开发环境中的代码库变得容易。

第三,支持多种数据处理。Python提供了对文本、图像和多媒体数据的高级支持,它支持对非结构化数据和非常规数据的数据处理,这是分析社交媒体数据时的常见大数据需求。这是Python能够与大数据分析相结合的另一个原因。

第四,也是非常重要的一点,就是Python语言支持多种库。Python广泛应用于各个行业领域的科学计算,它包含大量经过良好测试的第三方库,主要包括以下几类:

(1)数值计算;

(2)数据预处理;

(3)统计分析;

(4)机器学习;

(5)可视化。

这些第三方库里面有很多函数,完全可以用来解决运营商客户流失因素分析案例中需要解决的问题。因此,在本教材中,我们将使用Python语言的库来完成每一个任务。那么使用Python语言的库需要哪些准备呢?在任务1.2中,我们将详细地进行介绍。