前言
1.缘起平安
我与平安的缘分始于2013年10月,时任平安集团CIO的陈心颖女士带领平安集团各专业公司的技术管理层到美国考察金融科技和云计算市场。我当时在亚马逊AWS公司工作,和同事们一起在西雅图接待了平安考察团队。平安集团此行一方面是了解亚马逊是如何构建云计算业务的,另一方面也想与亚马逊AWS探讨合作构建云平台的可行性。虽然双方最终没能达成战略合作,但此次美国的会面却让我的职业生涯开启了新的篇章。
作为一个热衷并一直坚持运动的人,北京的雾霾让我非常难受和压抑,2013年末北京的几场大雾霾就像压倒骆驼的最后一根稻草,彻底动摇了我继续在北京生活的信心。经过长时间思考和纠结,我最终决定离开北京。深圳无论从空气质量还是就业环境都是一个理想的选择,恰逢2014年上半年平安科技邀请我加入构建云平台,我欣然接受邀请,携家人南下深圳。
2.雄关漫道
在我加入平安科技之前,云计算已经作为创新项目成立,当时有一个10人左右的创新小组在为开发测试环境搭建一个云平台。创新小组成员是从平安科技基础架构部门抽调而来,都非常聪明能干。虽然之前大家都没有太多构建和使用云计算的经验,但大家对云计算的前景都抱有坚定的信心。在其他人还对云计算保持怀疑和观望的时候,大家坚定地加入这个刚成立不久的创新小组,一起开拓未来。
在这样的背景下,我接管了云平台的工作,当时面临了诸多挑战。
首先是资源问题。尽管平安是一个大型集团,有很雄厚的财力,但由于当时云计算还只是一个创新项目,连同我加入后申请到的人力资源不足20人,底层硬件更是以使用5年以上的过保服务器为主,依靠这些资源来构建和运维云平台几乎是一个不可能完成的任务。我先向公司申请不再使用过保服务器,这样可以避免团队花费过多精力在处理硬件故障问题上,尤其是在初期我们系统冗余能力还没有构建起来的情况下。同时,我提出“搭台唱戏”的构建模式,即我们云创新小组作为云平台建设的底层团队构建一个基础平台(搭台),然后欢迎公司内其他团队一起参与构建云平台服务(唱戏)。我们不希望让其他团队认为云平台只属于我们创新小组,云平台是属于公司的,我们只是牵头建设团队。这种构建模式极大地调动了其他团队参与云平台建设的积极性,缓解了我们人力资源上的窘境。开放的思想始终贯穿着平安云的发展历程,就像现在我们一直认为平安云是整合平安集团整体资源的云平台,而不是仅仅属于平安科技。
第二是定位问题。云平台应该作为一个项目还是作为一个产品来对待?大部分企业在构建私有云的时候都把这个工作当成一个项目来建设,平安最初也是这么操作的。但这种做法会大大降低云平台成功的概率。因为项目通常都受到交付目标、交付时间和资源投入的种种约束,一般项目结束后,项目团队也就解散了,是否还有二期项目就成为一个未知数。我认为这种交付式的关系很难做出好的产品。但如果把云平台当成一个产品,从规划设计到建设运营就一定是一件长期的事情,只要这个产品能够满足客户需求,就有存在的价值,后续就是根据用户反馈不断地迭代升级,而且关键的一点是团队对产品的感情,也远非项目方式所能比拟。所以,从我加入平安云团队开始,我们就一直努力将云平台作为一个产品进行长期建设。我们将云平台正式命名为“平安云”,我还为平安云主导设计了第一版Logo(现在平安云的Logo是我们2018年找专业公司重新设计的)。我一直要求团队成员对待自己的产品就要像对待自己的孩子一样,要有责任感和主人翁精神。家长发现孩子成长过程中出现问题,肯定是想方设法帮助孩子改正,而不会弃之不顾。与此同时,平安云也开始作为一个独立产品在公司内部考核投入和产出指标,承担产品应有的业务责任。
第三是平安云架构问题。在云平台搭建之初,选择一个合理的架构非常重要,架构一旦确定之后,想再做调整是很困难的。在平安云的架构设计上,我们做了一个非常明智的决定——用公有云的服务设计和架构方式来做平安私有云。一开始我们就做了多租户设计,平安集团内部有很多的专业公司,专业公司下面还有不同部门和项目组,他们在我们的云上就是一个个租户。我们同时引入“按使用量计费”的模式。平安科技多年前就已经开始以服务定价的模式为其他专业公司提供服务,所以云计算中明码标价并按量计费可以为我们用户提供更加透明的成本核算方式。我们还引入VPC(虚拟私有云/专有网络)技术,可以把租户和租户之间的资源通过网络很好地隔离开。这些架构决策使得我们后续向公有云、行业云方向发展的时候,技术和架构上的调整变得相对简单,没有遇到太大的阻碍。
第四是平安云的技术发展路线问题。我们决定要自己把控云平台的技术发展路线并自主设计平安云的整体架构。云平台是一个复杂的系统,由许多不同的功能模块组成,其中每个功能模块都可以根据需求和自身条件来决定使用什么技术。有些是完全自主研发,有些是基于开源技术定制,有些则是选用商业产品来实现。整体技术发展方向和路线对产品建设非常关键,有些公司在搭建私有云的过程中,采用与某个供应商整体合作的方式,这种做法不仅让内部团队对技术把控不足,也欠缺灵活性。因为供应商产品往往是一个整体,定制化开发难度高。相反,如果整个架构都自己设计,每个模块采用的具体技术实现方式自主选择,则整体方案的灵活性很强,可以达到整体自主可控的效果。云的发展越来越快,规模越来越大,业务越来越多,打造一个自身能力很强的技术团队,对以后的高速发展也非常有利。当然这种做法对资源投入有较高的要求,如果资源不足,那么选择某个有类似行业背景的厂商合作会是一个更优的选择。合作方的选择也很重要,所谓南橘北枳,无数例子证明,传统公司直接照搬互联网公司的做法往往达不到预期的效果。
我了解到业内有些公司在选择云计算发展路线时摇摆不定,例如有家知名金融公司采用了几乎市面能找到的所有云平台商业产品,但直到今天,结果依然差强人意。我认为这种情况下能做好云平台的可能性很小,因为自身缺乏在技术发展上的主线。很多人认为建设云平台关键在于选择某一个框架,例如CloudStack、Open Stack等,但是经过几年的实际建设和运维之后,我认为选哪一个框架并不是最关键的,云平台的关键在于底层的网络、存储以及自动化的编排设计。这也是为什么新闻中看到的云平台故障大都是与存储和网络服务相关的。我们很幸运一开始就决定走一条自主可控的技术发展路线。
第五是如何迁移应用上云。2014年我们开始构建云平台生产环境的时候,传统基础架构已经在平安发展很多年,云计算作为新事物在认知度和接受度上都有不少挑战,业务团队会担心云平台是否足够稳定可靠,还有一些技术团队不自觉地会担心云平台是不是会影响他们原来的工作等。所以我们当时提出采用“Bi-Modal”(双模)的方式,也就是新应用采用新(云)模式,而老应用采用老模式。对于旧的应用我们保持充分的耐心,等待应用、系统和硬件平台升级变更的机会来推动它们迁移上云。我们还在网络连通、自动化部署等方面做了许多微创新来吸引和方便用户使用云服务。另外,对于应用上云而言,管理层对云的决心非常关键,幸运的是,平安集团领导对云高度重视,从而为平安云推动应用上云工作扫除了很多障碍。
解决了前面五个问题之后,我们接下来要解决团队文化建设问题。平安云作为一个产品,要服务好我们的客户才能长远发展,并逐步建立起自己的口碑。我们团队的大部分成员之前都习惯于传统的交付型工作,这也是平安科技一直非常擅长的,但如果我们要构建产品、要从服务客户中获得收入,我们就要建立适合构建互联网产品的团队文化。我在亚马逊的工作经历让我深刻理解到企业文化对公司管理的重要性。亚马逊之所以能够持续成长为一个年收入超过2000亿美金、员工人数超过60万并且依然保持高速发展的公司,我认为与亚马逊强势的“十四条领导力原则”企业文化密切相关。所以,我在2014年为平安云团队创建了一个“COBIT”文化,其中C代表Customer Obsession(客户至上),O代表Ownership(主人翁精神),B代表Bias for Action(说干就干),I代表Insist on the Highest Standards(坚持最高标准),T代表Think Big(敢想)。在日常管理工作中,我始终坚信管理者要以身作则,要身先士卒,所以我也始终按照COBIT来要求自己,并带领管理团队一起维护和实践这个团队文化。
在梳理好上面这些问题后,平安云团队的工作重点就是构建一个个具体产品服务。我们从最基本的云主机、块存储、对象存储、ELB等服务开始逐步建设,然后随着更多技术专家加入平安云,我们构建的产品也逐渐丰富起来,到目前为止已经对外提供超过80种不同的产品服务。
3.“2+1”模式
刚到平安的时候,我的任务是给平安构建一个私有云平台。到2016年底,这个任务基本完成,平安私有云的产品、架构都是比较完备的,云平台上的应用也越来越多。在金融行业,平安云的应用、技术和规模都处于领先地位。我们从2016年开始构想,既然平安云在平安内部能够成功地推广和应用,为什么我们不能将这个平台对外开放,服务更多的金融客户呢?因此从2016年开始,我们和平安金融壹账通一起从只对内服务转变为同时对内对外服务,我们选择专注在金融行业,这是平安的巨大优势,我们当时的目标就是要做最专业的金融云。这个定位现在来看应该说是比较精准的。平安云在《互联网周刊》的金融云排名中最近两年连续排名第一,同时平安云还是中国信息通信研究院评估认证的可信金融云服务商(银行类)。
2017年底平安集团进行了新的业务战略调整,进一步加大对科技的投入,在金融生态、医疗、智慧城市、车和房五个方向共同发力,平安云也顺势从2018年开始为这五大行业做技术支撑。金融、医疗和智慧城市这三个行业都属于强监管行业,因此我们面临了很大的挑战。我们在云平台建设中采用多种不同的隔离技术,使得整个平安云可以支撑不同行业的业务。为了应对政府和监管机构对数据安全性的高要求,我们使用了不同的管理方式,有托管也有专区,以此来满足不同行业对数据安全性上的各种特殊要求。目前平安云按照“2+1”模式对外提供云计算服务,也就是公有云和专有云(金融云、医疗云和政务云等)+私有云解决方案来满足不同客户的需求。
4.云计算的本质
云计算之所以被认为是对传统IT服务的重大变革,我认为主要基于以下三个原因:
(1)规模效应;
(2)自动化提升效率;
(3)专业分工。
这三个原因从经济学上决定了云计算一定会替代传统IT服务方式。所以,我认为云计算的本质就是规模化和自动化在IT领域的服务化体现。最近几年,我们可以清楚地感受到大家对云计算的态度发生了很大的变化,不管是技术领域还是业务领域,越来越多的人开始关注云计算。企业对云计算的态度也从为什么要使用云计算逐渐转向如何用好云计算。
那企业想做好云计算平台需要哪些条件呢?
首先需要在战略上重视。只有在战略层面先确定方向和重要性,执行层面才能高效地解决在推进过程中遇到的各种问题。一个最典型的例子就是2010年中国IT领袖峰会上,BAT三家公司的创始人对云计算的态度基本上就决定了这三家公司目前在云计算市场上的地位。
其次,云平台的构建是一个长期的过程,最高决策层要有一定的战略耐心和决心。一方面云平台属于底层技术,它的业务效果不会像应用层面那么立竿见影。另一方面云计算技术还在快速发展中,我们不能指望一步到位地构建一个静态不变的云平台。云平台是一个与时俱进的、有生命力的、动态发展的平台。
第三,要营造DevOps的文化。在构建云平台之前,应用的开发、运维和基础架构一般是几个相互独立的团队,各自团队目标差异比较大,几个团队之间尽管互相依赖程度很高,但合作却往往没有那么顺畅。云平台建设从根本上解决了基础架构资源的快速部署并提供服务的问题,改变了开发团队一直需要向管理员申请准备底层资源这个烦琐的流程,也减少了冗长的等待。应用的测试环境和生产运行环境资源创建可以通过云平台的门户自助完成。当基础架构变成服务的时候,应用的运维就会变得简单,为开发和运维一体化管理提供了可能。也正因为有了云平台,DevOps可以把CI/CD(持续集成与持续交付/部署)整合在一个流水线中,从而极大地提升研发效率,缩短应用的上线时间。
近年来,企业的数字化转型工作被各大公司重点关注。由于和企业发展方向及业务密切相关,数字化转型已经超越传统CIO的职责范畴,常常成为CEO的关注焦点。我们认为企业数字化转型不是引入一两个时髦技术能解决的,而是需要由点到面全面推进。不仅要有公司战略层面的部署,也需要充分发挥员工的创造性。所以,云计算是企业数字化转型中的重要基础。云计算不仅可以快速支撑业务的上线和运行,还可以有效降低企业员工的创新门槛,提升创新速度。平安集团在过去几年里大力推动数字化转型,推出“金融+科技”“金融+生态”的战略部署并取得显著效果。平安云在这个转型中承担了底层支撑平台的任务,有力支持了集团内不同专业公司的业务创新和发展。以平安集团孵化的独角兽公司金融壹账通为例,它从2015年成立到估值超过80亿美金仅仅用了不到4年的时间。从2015年金融壹账通获取第一家银行客户开始,就是由平安云提供底层基础架构支持,并快速发展为平安云的典型客户之一。IDC在2018年颁发给平安云的数字化转型奖项,也印证了我们在推动平安集团数字化转型过程中发挥的重要作用。除了对内支持集团业务之外,平安云还是平安集团服务的总输出平台,集团内各专业公司都可以把自身对外提供的服务放到平安云上面,作为平安云平台上的产品统一对外服务。作为平安数字化转型的底层平台,平安云的使命就是赋能生态圈,成就我们的客户。
5.致谢
这里,我要代表团队感谢帮助平安云产品建设和参与本书写作的领导、同事和朋友们。
首先要感谢平安集团联席CEO陈心颖女士,正是在她的亲自推动下,平安云在2013年作为一个创新项目正式立项,从此开启了这个精彩的云端之旅。平安集团的科技业务线也正是在她的领导下发生了根本性变化,极大地推动了平安集团的科技转型。我还要感谢平安科技CEO陈立明先生对我的信任和日常工作中的大力支持,他开放的心态和工作中的充分授权让平安云团队拥有灵活和自由的成长环境。同时,我也要感谢平安智慧城市的联席总经理胡玮先生,他不仅在2014年带我走入了平安科技,还一直管理着平安云的整体业务直到他履新智慧城市。我更要感谢我的团队,感谢大家一路的信任和支持,我们一起从零开始构建平安云,这是我们大家的孩子。当然,这个旅程远未结束,更精彩的一定还在后面。最后,我要衷心感谢平安云所有的客户,你们的信任是我们前进路上最大的动力。
本书最初写作的想法始于2016年,但由于日常工作的繁忙一直延迟到2018年才正式立项开始。本书由平安云专家联袂奉献,特别感谢以下列出的平安云同事在工作之余为此书编写付出的额外努力。本书由王艳负责整体项目管理,各章执笔者如下:田海荣、刘畅(第1章);丁宁、王艳(第2章);李爽久、孙骥千、罗颖、刘友瑜(第3章);樊磊、方伟、王鹏、邓鸿斌、杨家明(第4章);陈学伟、兰东平、刘子锐、王欣(第5章);汪洋、王瑾玲、梁海安、刘欣(第6章);刘怿平、祝超(第7章);吴静(第8章);周华、宋永亮、陈记伟、龚书(第9章);李启飞、熊星、毛皓、宋小金(第10章);朱胜强(第11章);康晓宁、李渊(第12章);沈勇、倪春娟、吴海川(第13章)。另外,感谢胥耀、张伟新、杨定朝、管清政、梁思、王婷婷、王泓晔为本书提供素材,感谢戚文婷、马爽、刘慧、陈小乐、郑梦琴的文字编辑工作,感谢丘子隽、陈建、彭磊、李振宇、琚汝强给予技术指导。此外,清华大学出版社的盛东亮及其同仁在本书出版过程中也给予了大力支持,在此一并表示感谢。
6.长风破浪会有时,直挂云帆济沧海
从2013年立项,到2014年开始有三个生产试点应用使用云平台,然后逐步支持大部分平安业务,再到开始以专有云和公有云方式对外提供云服务,平安云的构建过程应该可以为很多希望构建和应用云服务的企业和个人提供一些参考,这也是我们写作本书的最主要目的。希望我们走过的路、跨过的坑可以给其他人一些启发和帮助。
“专业让生活更简单”,平安云后续将更加聚焦在金融、医疗、智慧城市、车和房这五大生态,和平安集团五大生态领域中的专业公司及外部合作伙伴紧密合作,联手打造真正能够解决客户“痛点”业务问题的全栈式解决方案。为帮助更多企业充分利用好已有的IT基础设施投资,平安云将通过混合云管CMP产品(平安壹云管)和PAStack私有云产品,让用户可以发挥两种不同IT模式的各自优势,并实现多云管理而不绑定某一家云服务商的服务,从而达到控制风险的要求。另外,随着5G商用的开始,5G三大应用场景eMBB(增强型移动宽带)、uRLLC(超可靠低延时通信)和mMTC(海量机器类型通信)加速推动万物互联时代的到来,这对云计算提出更高的要求,边缘计算、无服务器计算、异构计算、新型存储介质和架构、智能网卡等都是在这个浪潮中涌现出来的新技术。
从最初提出云计算概念到今天,已经超过十年,但是我们认为云计算的大潮才刚刚开始,目前国内大部分的IT系统还没有采用云计算的服务方式。这里以我的微信签名与大家共勉:云路漫漫其修远,WE将上下而求索!
凡是过往,皆为序章。
方国伟 平安科技首席技术官
2019年7月