云原生数据中台:架构、方法论与实践
上QQ阅读APP看书,第一时间看更新

3.2 数据驱动

介绍完数字化转型的4个阶段之后,我们来看一下数字化转型的一个主要目标——数据驱动。在一个数字化运营的企业里,所有的运营要素(如零售行业的人、货、场,物联网的传感器、设备)都会有相应的数字化形态,这样才能支持数字化的决策和数据驱动的产品迭代。不管是一袋橘子、一张健身卡还是一张电影票,这些产品的实体以及消费它们的用户在网站、移动应用、内部ERP或CRM上都会有一个程序生成的对应对象。在对这些运营的要素进行数字化(也就是上面所说的信息化)之后,我们可以使用数据工具来驱动销售和提供个性化服务,销售和生产的流程可以根据数据来实现精细化管理,这样的系统称为数据驱动系统。

具体来说,数据驱动系统可根据当前全局数据产生的智能洞察来持续地动态决定最佳产品和管理决策。数据驱动系统是由程序来实现的,而程序=数据+算法,那么可以认为,传统的信息化系统是使用预定好的算法来处理预定好的数据,而数据驱动系统则是基于智能、个性化、实时、自适应的算法来处理动态、持续变化、用户输入、多方聚合的数据,如图3-2所示。

图3-2 数据驱动的程序

例如,一个用户来到一个网站:

·如果每次他看到的都是一样的内容(如静态网站),那么这就不是一个数据驱动系统的产品;

·如果他看到的内容随着时间而改变,但是所有用户在同一时间看到的内容都是一样的,那么这也不是一个数据驱动系统的产品;

·如果他看到的是与他自己相关的一些简单的局部数据(如存款余额),那么这也不能算是一个数据驱动系统的产品。

数据驱动系统的关键在于以下3个特点。

(1)持续(Continuous)

数据平台必须是持续运行的,不断自动处理最新的数据,产生最新的结果,这也就是常说的从T+1到T+0的需求。在万物互联的趋势下,互联网会连接越来越多的设备,随着各种新业务、新模式的出现,会有越来越多的应用出现在互联网上。同时,会有越来越多的用户被连接进来,而这些设备、应用和用户将会时时刻刻不断产生大量的新数据,这就需要数据平台能够持续运行并自动处理所产生的最新数据,而不需要手动处理或者进行大量人工干预。

(2)洞察(Insight)

输出必须利用数据分析的结果,而不是简单地罗列或展示数据。数据驱动系统必须具有数据分析和机器学习的能力,能够从海量的数据中挖掘出对于企业业务有价值的信息,从而支持更加个性化的服务,更好地指导企业进行决策。而这些如果仅仅依靠简单的数据罗列和展示显然是不行的。

(3)动态(Dynamic)

所有的输出必须是根据数据动态生成的(包括批处理和实时处理),而不是固定的规则。因为数据的产生是动态的,所以数据驱动系统的输出也必须是动态的。就像前文所述,一个网站应该能够为用户提供“千人千面”的体验效果,而这离不开数据平台的动态数据处理能力。

下面我们以互联网企业为例来介绍一下数据驱动系统的功能以及它们是如何应用在公司的业务和管理之中的。

3.2.1 面向用户的数据驱动产品及服务

数据驱动系统的第一个作用是为最终用户提供数据驱动的产品及服务,其主要特征是个性化、智能化、精准匹配用户需求。下面是一些例子。

(1)产品推荐

简单来说,产品推荐就是向用户推荐产品,比如Twitter推荐的是推文,Facebook推荐的是用户帖子,Instagram推荐的是热门图片。产品推荐是一种用于预测及显示用户想要购买的商品的算法系统,它通过分析用户的上网行为来判定用户对何种商品会有购买兴趣。

近年来推荐系统越来越火,并用于各种不同的领域,如电影、音乐、新闻、图书等,而其中大多数是用于电商平台,eBay、亚马逊、阿里巴巴等都有专门的推荐系统来为用户推荐产品。在合理的设置下,它不仅可以有效提升利润、点击率、转化率等,还可以为用户提供更好的体验,吸引回头客,这些对于电商是很重要的。

(2)用户推荐

类似于Facebook、LinkedIn的People You May Know或者Twitter的Who To Follow,用户推荐是根据用户的社交图谱来发现用户可能的社交联系,并将其推荐给用户。用户建立的连接越多,产品的黏性越强。

(3)内容搜索

所谓内容搜索就是根据用户需求与一定算法,运用特定策略从互联网中检索出指定的内容信息并反馈给用户的一门检索技术。内容搜索依托于多种技术,如网络爬虫、检索排序、网页处理、大数据处理、自然语言处理等,为信息检索用户提供快速、高相关性的信息服务。内容搜索的核心模块一般包括爬虫、索引、检索和排序等。

(4)数据指数

积累了大量用户数据和消费数据的公司都会推出自己的数据指数产品,如腾讯的TBI指数、阿里巴巴的淘宝指数、百度的百度指数、微博的微指数。此类产品主要用来了解趋势,对判断一些产品及事件的趋势很有用。

(5)个性化服务

根据用户的主动设定,或对各种渠道的数据进行收集、整理和分类后挖掘用户的需求,主动向用户提供和推荐相关信息或服务,以满足其个性化需求。用户行为分析、用户画像、个性化推荐等都可以为精细化运营和战略决策提供支持。

·基于地理位置的服务:基于GPS的实时地图服务、云计算、人工智能、机器学习,使得实时匹配海量乘客和车辆成为可能,如Uber、滴滴等智能打车服务。

·基于用户画像的服务:基于多维度用户数据及商品数据,通过画像标签系统抽象出用户的信息全貌,从而进行定向广告投放、个性化推荐、个性化广告推送、精准营销等活动。

·基于实时活动的服务:通过收集在端点和边缘实时交付的数据,为对延迟敏感的行动提供信息参考,从而为数据消费者提供实时决策,加快业务响应并帮助其改进用户体验。

(6)产品线的交叉推广

交叉推广(Cross-Promotion)是一种市场推广策略,一般是指向某一款商品或服务的消费者推荐与该商品或服务相关的另一款商品或服务。例如,我们在一些电子商务网站购物时,常常会看到“你可能会喜欢”或“购买了这款商品的人同时还看了”等信息,这些就是交叉推广的一种。

3.2.2 面向内部业务部门的数据驱动服务

数据驱动系统的第二个作用是提供可供前端产品共享的内部服务,这实际上就是一般数据中台的定义中包括的,可以在前端产品中复用的数据能力。但是值得注意的是,类似于产品推荐/用户推荐的功能在某些场景下也会作为系统服务提供。所以,在前台产品和中台功能之间其实并没有一个明确的界限。如果某个前端功能使用的场景多了,我们一般也会把它提炼出来作为系统服务提供。

(1)用户画像

用户画像作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,在各领域均得到了广泛应用。用户画像最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,进而为用户提供有针对性的服务,这就是用户画像的作用。一般用户画像的结果会以用户标签的形式为前端服务,例如年龄、性别、地区、爱好、收入等。

(2)内容情感分析

内容情感分析又被称作文本情感分析、意见挖掘、倾向性分析。简单而言,内容情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网(如博客、论坛)、社会服务网络(如大众点评)上产生了大量用户对人物、事件、产品等的有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐、批评、赞扬等。基于此,潜在用户就可以通过浏览这些带有主观色彩的评论来了解大众舆论对于某一事件或产品的看法。

(3)内容自动标签

内容自动标签又称内容自动标注,是指将一些非标准化的内容自动打上标准化的标签。例如,用户点赞了一个包含猫的图片,此时如果能够识别出图片中有猫,我们就可以自动给图片打上“猫”的标签,并且知道这个用户对“猫”这个主体感兴趣,进而对其进行相应的内容推荐或者广告投放。

(4)知识图谱

知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,描述了实体概念之间的联系和因果。知识图谱作为一个可共享的数据能力,能让前端产品对用户与产品的一些隐藏关系进行推理,提供支持个性化的服务。例如,我们知道体育产品中的跑鞋和可穿戴设备中的心率监控仪都是服务于跑步爱好者的,就可以在用户购买跑鞋的时候推荐心率监控仪。

(5)趋势预测

趋势预测又称时间序列预测分析法,是根据事物发展的连续性原理,应用数理统计方法或者机器学习的算法分析过去的历史资料,然后再运用一定的数字模型来预计、推测计划期产(销)量或产(销)额的一种预测方法,例如Uber预测需求,Airbnb预测房价。

(6)活跃用户统计

虽然这是一项必需的基础功能,但是在实际工作中,即使只是统计一下活跃用户也是有不少挑战的。这个难度主要在于多维度的统计、活跃用户的定义以及新产品的加入。

(7)用户增长分析(留存率、漏斗)

用户增长分析不只是分析用户数量的增长,用户的获客、激活、留存、变现、推荐等都属于用户增长探讨的范畴。用户增长是一个由行业、用户、竞品、痛点、产品、渠道、技术、传播、创意、数据等构成的一体化、系统化的增长体系。用户增长不是简单地刷屏,也不单是运营或者市场部门的事情,它是以上各个要素综合作用的结果。用户增长分析的主要目的是判断未来用户的增长趋势和增长空间,为增长是否能够持久提供初步的判断和依据。

(8)产品性能报告

一个产品上线后我们需要对其性能、用户体验、商业收益、用户反馈进行实时追踪。最好是产品上线之前就准备好,产品一上线就可以拿到实时的报告。更进一步,这种产品性能报告最好能做成一个通用工具,使业务部门只需简单配置就能完成一个实时大屏或者性能报告。

(9)反欺诈

反欺诈是对交易诈骗、网络诈骗、电话诈骗、盗卡、盗号等欺诈行为进行识别的一项服务。在线反欺诈是互联网金融必不可少的一部分,常见的反欺诈系统有用户行为风险识别引擎、征信系统、黑名单系统等。

(10)数据即服务/模型即服务

数据在系统之间以服务化/模型化的方式进行交互,而服务通常以API的形式存在。如自动数据服务发布使多源数据可在统一标准下进行管理、复用及监控。数据即服务/模型即服务的主要功能通常包括接口规范、数据网关、API数据链路、逻辑模型、API等。

(11)风控服务

金融的核心是风险控制(简称风控),互联网金融也不例外,只是后者更加依赖于数据。大数据风控的核心是数据,阿里巴巴前首席数据官车品觉提出以“联动”方式让数据“动”起来,可以形象解释大数据风控服务的实现方式。如利用IP地址结合上网时间,判断用户的家庭地址或公司地址,并根据其所在的地址结合公司发展状况、职位、所在地房价等数据,判断此用户的收入,并对风险进行预测。这样就可以通过“联动”数据,指导全面、全流程的风控服务。

3.2.3 数据驱动的系统管理

数据驱动系统的第三种功能一般用于内部管理和决策。它们和内部业务数据服务的区别在于,这里的功能可能不直接与最终产品对接,但却是公司数据驱动管理方式的另一形态——BI(商业智能)。除了第2章介绍过的商业智能工具、实时产品数据报表等之外,数据驱动系统还支持以下内容。

(1)数据资产管理

对数据进行关联性分析,透视数据流转的生命周期,对来自多源异构系统的数据进行统一管理,把数据从成本转化为资产。数据资产管理可提供多维视角,包括数据被如何使用及使用过程中消耗多少资源、产生了多少价值,数据由谁来维护以及被哪些人访问等维度的信息。

(2)数据探索

在公司内部进行数据探索,发掘数据价值,并快速实施和验证各种大数据方案。数据探索为数据科学家或者业务专家提供平台,使其能根据业务情况,基于实际工作中遇到的问题进行数据采集、处理、分析及展示,从而快速验证商业问题。

(3)合规

合规涉及数据访问、数据准确性等问题,如系统内的数据如何以及以何种颗粒度记录所有数据的操作记录、应用/程序间的数据访问权限管理等。安全合规类产品可以应对用户和数据、应用/程序和数据之间的审计及访问控制。

(4)异常检测

用更强的控制感掌握数据的健康状态,并应用算法基于规则和模型自动发现系统运维中的问题或对风险、异常进行预警及警告。自动异常检测的强度和渗透力直接关乎数据驱动决策的正确性。