|1.1 互联网之后是什么|
互联网是20世纪60年代在个人计算机还未出现就已经出现的概念。互联网的主旨思想是将世界上所有的计算机连接起来(起初只是连接几台计算机)。随着个人计算机的发展、手机的出现和移动互联网的发展,互联网从各个方面改变了我们的生活。
我们可以在互联网上购物,也可以在互联网上看电影;在互联网上与朋友进行交流,分享自己的旅游照片;在互联网上搜索自己感兴趣的文章,发表自己的意见等。
但是,互联网是站在计算机的角度来思考世界的,而大数据则是站在数据的角度去观察世界。两者能否联系起来改变我们对世界的感知呢?
1.1.1 互联网如何升级
互联网解决的是各种计算机的连接问题。经过50多年的发展,世界上的计算机被连接起来,由此产生了各种业务场景,人类科技史实现了一次巨大飞跃。
1.1.1.1 互联网连接改变世界
计算机连接成互联网之后,世界为之改观,我们的生活和学习工作模式都发生了彻底的改变。
互联网已经成为我们生活不可缺少的基础设施。当前,人们不仅要解决衣、食、住、行的需求,更要解决信息通信的需求。图1-1展示了计算机互联的场景。
图1-1 互联网将“孤立”的计算机连接起来
1.1.1.2 如何将底层通信升级为大数据通信
互联网是面向计算机通信的,这种通信建立在TCP/IP基础上,每台上网的计算机被分配一个IP地址(静态或者动态),然后进行识别和信息传输工作。这种通信的层级比较低,以二进制信息传输为主。所有的通信,不论是图片、视频,还是各种数据,最终都要被转换成为二进制数据,然后进行传输。
如果传输的对象是数据,那么能否建立一个面向数据传输的网络,让用户透明地感知各种数据,寻找自己需要的数据;同时,用户能够正确理解数据的内容,对数据进行计算,生成自己需要的结果呢?
互联网通信如何升级成为大数据通信呢?这就需要“数联网”来解决。
1.1.2 大数据面临的挑战
互联网的出现,尤其是移动互联网的发展,产生了海量的大数据,但是这些大数据被分裂地存放在各机构中。例如:淘宝网站将用户的各种购物数据进行了存储,用于分析用户的购物喜好等行为,但是这些数据并没有对外公开。
这种现象,很像当年没有连接互联网时的单机时代出现的情景,每台计算机有自己的信息、自己的CPU,且彼此间没有连接,没有信息交换。
1.1.2.1 孤立的数据湖水无法汇成江海
当每个机构的大数据数量足够大时,就形成了数据“湖水”。每个机构都在自己的数据“湖水”中劳作,分析自己的用户,寻找自己机构管理中的问题。例如:中国通信企业根据自己的用户话单等数据,分析出用户的喜好行为,对用户进行手机报等增值业务的营销。
但这种数据分析只能源于机构自身的数据,用户在其他领域的消费数据无法被收集,例如:用户在京东网站上购买了哪些商品,用户在工商银行每月消费了多少钱等。
湖水最终要汇入大海,那么每个机构的数据能否互联起来,汇成大数据的“海洋”呢?
1.购车分析
举例而言:张博士要购买一辆汽车,他有购车的预算、购买的车型范围(例如从A、B、C三款车中挑选)以及对车辆性能的考量(如油耗、安全性等)。目前的场景是,张博士要在各个网站浏览,寻找A、B、C这三款车的各个方面的数据,收集车友们实际的油耗数据,查找碰撞的事故数据,再对比各个卖车点的价格数据和售后数据,然后才能决定购买哪款车,在哪里买等。
2.用户评价、产品评测、市场销量、广告效果等维度
能否直接获取关于A、B、C三款车型的相关数据呢?
如果有了数联网,张博士就可以直接搜索A、B、C三款车在不同销售点的售价数据,直接收集相关车友的实际油耗数据进行测算,收集各种事故碰撞数据进行分析。
此外,张博士也可以直接收集用户评价数据(如各个用户给出的几星服务数据)、产品测试数据(如不同媒体的刹车距离实测数据)、市场销售数据(如当地市场的保有率数据)、广告效果数据(如某广告的回搜率数据)等。
有了这些数据,张博士可以对A、B、C三款车型有更加量化的分析,结合自己的需求,他就可以进行理性选择。
互联网解决了信息的不对称问题,而数联网解决了数据的不对称问题。
1.1.2.2 非结构化数据的“淹没”问题
有人会想,目前的搜索引擎也可以完成上述这些数据的收集工作。实际情况是,我们目前自己在互联网上搜索上述数据时(尤其是非结构化数据),我们所需要的数据常常会被“淹没”。而且这种非结构化数据,需要我们一张照片、一张照片地去读、去分析,十分麻烦。
首先,这些搜索引擎已经被大量的碎片信息淹没,我们需要每个链接、每个链接地去阅读、去识别,且不一定能找到自己想要的数据。
其次,这些数据是零碎的,我们要将每条数据记录下来,然后去汇总、整理。
最后,我们无法收集到所有的数据,因为很多数据是不对外公开的。例如,交通事故后的碰撞照片很难从外部获取。
据IBM公司测算,目前那些大公司的数据库中只有7%的信息真正派上了用场。
搜索引擎工作的对象是互联网上公开的文档,搜索引擎只是提供一种链接,并不能进行数据分析,用户需要自己逐条去阅读、辨别数据。当数据规模十分庞杂时,传统的搜索引擎实际已经丧失了信息搜索能力。
其结果就是,我们通过搜索引擎找数据,翻过几个无效页面之后,就选择放弃了。因为我们已经被淹没在各种无效的“链接”里,而搜索引擎却并未“与时俱进”地提供数据分析能力,帮助我们甄别出有用的信息。
1.1.2.3 从处理结构化数据开始
我们才刚刚开始拥有处理非结构化数据的能力,但却积累了几十年处理结构化数据的经验。
例如,如果张博士需要的各种买车相关数据都存在各个机构的数据库中,而这些数据库都对他开放,那么问题就简单了。
张博士可以直接连接上这些数据库,选择自己需要的数据,然后直接进行记录、计算,形成自己的数据分析结论。
1.结构化数据的连接
结构化数据目前存在各个机构的数据库或者数据仓库中。这些数据库中的结构化数据,已经经过了初步的信息加工和处理,数据质量得到了基本保障。那么,能否先将不同机构数据库中的数据连接起来解决一些问题呢?
在每个机构的内部,不同的IT系统之间,通过数据接口,结构化数据互联工作已得以实现。有的企业通过数据仓库,已经完成了内部数据的汇总、整理工作。目前急切需要的是开放这些数据仓库中不敏感的数据,将其进行联接,产生价值。
例如,张博士买车的数据,可以从汽车企业内部数据库中获取,或者从媒体公开的数据库中获取。将这些数据互联之后,张博士可以对A、B、C三款车型进行量化和分析。
2.如何将非结构化数据变成结构化数据
网络上有大量的非结构化数据,如何对这些非结构化数据进行处理是目前我们遇到的主要问题。目前解决这些问题的主要方法依然是将这些非结构化数据转换成为结构化数据,然后对其进行分析(例如:数据分析者先将用户的一段语音进行识别转换,先转换成为文本文件;然后通过爬虫技术,分析哪些关键词出现的频率最高;最后通过一定的算法,判断该段录音文字反映的主要内容是什么)。
而对于能够拆出其中视频录音对话文件的视频资料,也可以采用上述方法,给出该段视频文件的内容标签和关键摘要,据此给出检索依据。
例如,A型车的某段车友越野视频中会有描述该车通过了什么路段、效果如何等录音信息,通过分析录音文件,用户可以判断该段视频是A型车进行野外泥泞路段的越野视频。据此,张博士可快速获取自己所需的有效信息,避免查看大量无关视频而浪费时间。
3.非结构化数据能否直接被处理
非结构化数据是否能够不转换成为结构化数据而直接被处理呢?答案是肯定的。运用谷歌的图像处理技术,用户可以直接分析一张合影照片中每个人的表情,如哪几个人是微笑的、哪几个人是沮丧的、哪几个人是难过的等。据此,用户可以判断这种照片的表情归属。
这种计算是基于计算机视觉中的图像分析进行的,目前还在探索阶段,需要耗费大量的计算资源,远没有结构化数据的计算那么简单。
但互联网中80%以上是非结构化数据,未来,非结构化数据的处理能力将决定着大数据应用的前景。
1.1.2.4 如何让数据流通起来
大数据面临的另一个挑战是,如何让这些机构内部的大数据流通起来,让这些大数据不仅可以满足机构内部的营销和管理需求,也能带来外部的服务效益和价值。
每个机构在收集整理其内部大数据时,都是为了内部营销和管理。用户资料(姓名、性别、年龄等)和用户行为数据(如购买了哪些商品等)都是以对内服务为主要目的的,如果其不能满足机构内部管理需要,就会被丢弃。
那么,如何让这些数据发挥可为其他机构服务的价值呢?
1.流通的数据带来价值
学过经济学的读者应该知道,只有能够流通的物品,才能被称为商品,才会在流通中产生价值。企业内部的数据如果不流通,其价值也是有限的。例如,淘宝的数据如果仅服务于阿里巴巴公司,则仅可以提升阿里巴巴公司的市场营销能力;但如果被公布出来,就可以帮助整个电商零售行业发现市场的一些趋势,甚至是中国经济的一些走势。如果再补充一些京东等电商平台的数据,这种趋势预测会更加准确,从而可以辅助政府进行政策决策。
同样地,淘宝如果将数据向银行业进行流通,可以帮助银行分析出高端用户在网购时有哪些需求和特点;同时,淘宝也可以看出哪些网购用户是银行的高端用户,从而对这些用户可以进行高档商品的专项营销活动,提升商品营销效果。
由此可见,如果企业内部的数据能够进行体外流通,是可以带来很大价值的。
2.流通的原则亟待探索
让各机构打开自己的数据库进行数据流通,就要探讨有关的具体原则。
第一,这种数据流通不能侵害用户隐私。不能将用户的隐私数据进行流通,因为这将损害用户的利益,并最终损害企业的利益。
第二,这种数据流通不能侵害企业利益。例如,淘宝可能不会愿意将自己的用户数据与京东分享,因为京东的市场占有率没有淘宝大,这种分享可能会导致部分用户从淘宝流失到京东。
第三,数据流通要坚持互惠互利的“共赢”原则。参与数据流通的各方,都可以在数据流通/交换中获得利润。例如,淘宝和银行进行数据流通,会提高彼此对于用户的深度分析能力,提高彼此的市场占有率,这种共赢的模式是数据流通的主流。
第四,数据流通要有足够的管控手段。这包括提供安全的数据流通手段以及建立互信的诚信机制,以避免数据泄露,降低使用风险等。
1.1.3 封闭是“背道而驰”
过去的几十年,每个机构都在积极进行各自IT系统的建设工作,积累了大量的数据。例如,中国某通信企业积累了200PB的各种数据,但是,这些数据目前都是不能对外开放的。封闭的数据仅能服务于自身,而开放的数据将服务于整个社会,带来更显著的效益。
互联网的哲学就是“开放和共享”。但是在传统的IT系统建设思维中,每个企业、每个部门都将自己建的IT系统和数据据为己有,认为是自己的资产。企业内部要想打通数据壁垒,将所有的IT系统连接起来,建立企业级数据仓库都很不容易,更何况企业间的数据流通呢?
然而,开放和共享是大势所趋!企业在完成了企业级数据仓库的建设之后,即将面临着如何将自己的数据价值最大化的问题。企业内部的数据,其价值仅是服务企业内部管理;而在企业外部流通的数据则可以提供更广阔的想象空间,带来巨大的商业价值。
通过中国通信企业的内部数据,我们能够看出通信行为的变迁,看出人们关心的热点有哪些偏移,识别出人群迁徙的轨迹等。这些数据可以服务政府的旅游部门,也可以服务于旅游企业等。
1.1.3.1 从打开彼此的数据库开始
那么,如何打开机构间数据封闭的壁垒呢?答案是打开彼此的数据库。在法律允许的情况下,在保障用户隐私等前提下,企业可将部分非敏感数据开放出来,因为一些对自己企业没有用处的数据可能对别人意义重大。
在确定了可以开放的数据范围之后,企业就可以将这些数据库进行开放,可以通过以下形式进行开放。
(1)提供对外数据服务的接口
外部用户可通过接口调用数据,并分析数据。例如,张博士通过使用A型车企业的内部数据库,了解该车的各种生产情况及其返修情况等。
(2)提供数据库对外用户权限
外部用户可直接登录到该数据库,直接访问相关的数据库表,并进行有关的汇总计算等操作。例如,张博士可以直接登录到A型车企内部的MYSQL数据库,并进行有关的汇总、查询等操作。
企业要开放数据库,还要提供数据库的有关结构信息,包括有哪些数据、这些数据存放在什么库表中、每个字段的详细定义等。
随着云计算的出现,更多的数据被存放在Hadoop环境下的HDFS文件中。数联网同样面临着如何利用这些存放在Hadoop环境中的数据的问题。
1.1.3.2 开放的数据更具价值
前文已经阐述过,开放的数据才会更有价值。就像互联网,如果当时所有的计算机都不愿意联网,不愿意分享自己的信息,互联网就不会发展到今天。
同样地,自己企业的数据量再“大”,也无法和世界的数据量进行对比。每个企业的数据库,如果不被开放,可能就只拥有几十个使用用户,而一旦被开放,将会有几百、几千甚至几万的使用用户,这些用户会从各个角度分析数据,将数据的价值最大化,从而促进整个社会的共同进步和发展。
1.“横看成岭侧成峰”——不同角度看数据
数据要被开放的一个主要原因是,每个企业的数据都是站在企业自身角度产生的数据,而企业对数据的理解也是站在自身的角度。古诗“横看成岭侧成峰”说明,我们如果换个角度对这些数据进行解读,也许会有新的理解。
举例说明,通信企业能够看到某个高校某个专业学生群体的上网时间分布,而这群学生上网的时间集中在上午的10:00—11:00,通信企业关心的是,是否需要在这个时间段给学生们提供一个优惠的资费套餐,促进学生产生更多的上网流量。而站在学校角度,如果这个学生群体在这个时间段上网时间居多,是否证明这个时段的课程授课效果很不理想,学生们没有认真听讲,而是在用手机上网呢?学校据此可以从另一个角度去评估老师的授课效果和学生的学习状态。
2.衍生的大数据生态链和商业模式
开放的数据能够带来很多新的商业模式。互联网因为具备开放的属性,才衍生出如此多的商业模式,从而在为各方带来利润的同时,也极大丰富了人们的生活内容。
各种数据开放的商业模式都会产生自己的生态链,带动相关产业的发展。
数据在开放的过程中,就会带来对数据质量管理水平提升的要求,这就催生了数据质量管理咨询企业的诞生。只有好的数据才能卖出更高的价格。
未来,数联网在进行数据开放的过程中,也会催生更多的商业模式,要对这些模式进行探索,相应也会产生很多新的公司,带来更多的经济效益。
1.1.3.3 如何解决理念问题
要让数据被开放,我们首先要解决理念问题。
各个机构在开放自己的数据时,必然面临理念层面的问题。例如,企业会考虑这些数据能够带来哪些收益、数据开放会带来哪些风险、数据开放是否会泄露自己机构的核心机密等。
因此,必须要有一些企业先解放思想、勇于探索,主动开放自己的数据。这些企业与其他人共享的过程中会产生显著的优势,进而会带动其他企业跟进前行。
这种开放的理念也需要不断地被宣传。互联网的发展离不开大学生群体的推动,因为他们可以在BBS上看到别人的故事,然后也会开始分享自己的故事。在毕业之后,这些学生群体将这种分享的理念带到各自工作中,将其扩展到社会的各个领域。
既然互联网能够让大家共享自己的信息,那么数联网也一定能够让大家共享自己的数据。
1.数据是私有的吗
要解决数据开放的理念问题,就要澄清一个观念,那就是数据是私有的吗?
从理念而言,各机构收集到用户数据之后,就会据为己有,把其当作自己的私有财产。但是在法理层面,这些数据是否应该属于用户自己(用户只是没有能力存储、处理数据),而由企业代为存储和处理呢?因此,用户在接受某个企业服务时所产生的数据,归属权在法理上目前是不明确的。用户是否有权要求企业提供自己的数据、告知自己的使用习惯等,这些内容在法律上还处于探索阶段。
由此,哪些数据是私有的、如何界定数据的归属权等问题还处于讨论阶段。
2.构建“共享”“共赢”的理念
互联网改变了人们的精神状况,网民在互联网上分享自己的游记、自己的情感故事等内容,同时也分享着别人的喜、怒、哀、乐。互联网催生了“共享”“共赢”的理念。数联网构建在互联网之上,同样也将继承互联网这种“共享”“共赢”的理念。
例如,中国移动在与招商银行构建用户征信服务系统,并对外提供服务时,中国移动能够获得用户的真实身份、交往圈特征、用户消费特征等信息;而招商银行有用户在银行的借贷信息、消费信息等。在获得用户的授权之后,中国移动和招商银行将数据进行共享,并可以为第三方企业提供比较可靠的某个用户的征信信息。
1.1.4 大数据的“智慧”如何联网
大数据能够解决企业的数据积累问题,之后可以将这些数据应用于对企业的精准营销和精细管理中。大数据在企业中的应用,可以为企业的各种活动提供量化指导。
1.1.4.1 数据基础上的“智慧”
科学管理之父弗雷德里克·温斯洛·泰勒1898年前后在伯利恒钢铁公司(Bethlehem Steel Company)进行了著名的“铁锹实验”。通过观察和量化分析,他发现每个工人每锹铲铁矿石的最佳重量约为21磅(1磅=0.4536kg)。由此,他根据不同的原材料(煤矿、铁砂等),设计了不同形状、大小的铁锹。
这一研究的结果是非常杰出的,它推动堆料场的劳动力规模从400~600人减少为140人,使得平均每人每天的操作量从16吨提高到59吨,每个工人的日工资从1.15美元提高到1.88美元。
这种基于数据的量化分析,奠定了现代科学管理的基础。同样地,企业中的大数据也可以服务于内部的精细化管理,为企业管理注入“智慧”。
例如,中国移动通过数据分析进行了4G业务换卡促销活动,某市公司在进行用户分群之后,设定个性化营销用语,并将其在用户查询业务时触发。结果,该活动触及2.9万用户,换卡用户达到2980户,换卡率达到10%。
1.1.4.2 从单人“智慧”到众人“智慧”
每个企业基于自己的大数据系统,能够实现自己的“智慧”升级。但是,如果将这些数据联网,就可以实现从单人“智慧”到众人“智慧”的升级。
例如,很多人都会玩中国象棋,会根据自己的经验,拥有自己的下棋方式和方法。但职业的象棋手一定要记忆大量的象棋“定式”,知道各种棋局的“死活”。这些定式组成了棋谱,棋谱因此汇聚了很多前人的经验和教训,聚集了“众人智慧”。而一位象棋高手究其一生,所下的棋数量是有限的,只有学习前人的积累的精华(棋谱),他才能进入更高的层次。
同样地,企业的“智慧”也需要借鉴别人的经验,从而降低自己的决策风险。
1.1.4.3“智慧”互联
“智慧”的互联首先要解决数据的互联,而这正是数联网的基础。
有了数联网基础之后,企业的“智慧”也可以互联。每个企业可利用自己的大数据,形成自己的智慧经验,构建自己的知识库。
例如,中国移动在不同的省公司间,经常要进行经验的交流和分享,甚至构建统一的“营销知识库”,目的就是要进行“智慧”的互联,提升每个省公司的“智慧”程度。
1.知识库的构建
每个企业的“智慧”,都可以通过“知识库”的形式被存储。首先,这些知识要被分类,包括用户、产品、营销等;其次,这些知识要被管理,图1-2所示为某企业的知识库功能架构。
单点的知识库生产完成之后,企业就可以考虑知识库的联网问题。某个企业如果吸纳了其他企业的知识库,无疑将极大丰富自身“知识”的种类和内容。
图1-2 某企业知识库的功能架构
这种智慧的互联和汇集,在宏观角度上类似于神经网络中的神经元的增加,更多的记忆单元和计算单元可以显著提升“智慧”的能力。
目前,人工智能的进展主要集中于深度学习算法和大数据,而数联网将极大地扩展大数据的范围,数联网中的计算节点,也将增加深度学习的计算能力,促进人工智能更上一层楼。
2.新时代的医疗——DIY的可能
在智慧互联的场景中,最吸引人的是医疗的变化。
每个医生都有自己的医疗知识库,如果将这些知识进行联网,就可以形成智慧医疗。
例如,A医院脑外科的知识库如果与B医院脑外科的知识库进行互联,就可以丰富在脑外科手术中的各种病例及处理方法,这时的知识库已经变成了“A+B”医院的知识库。
那么,这种知识库如何对外开放呢?病人可以在知识库中自己寻找与自己类似的病例,大致了解处理的过程和结果,这也促进了病例分析的DIY过程。
这种方式,提升了医病过程的透明度,也提升了病人和医生间的相互理解度,进而降低医疗事故的发生率。
这种病例数据的丰富,也为后期人工智能在医学领域的应用奠定了基础。