大计算概论与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 算力网络

1.2.1 算力网络概述

关于算力网络的定义,目前业界没有统一标准。一个得到广泛认可的说法是:算力网络指在计算能力不断泛在化发展的基础上,通过网络手段将计算、存储等基础资源在“云—边—端”之间进行有效调配,以提升业务服务质量和用户服务体验。

随着边缘计算的发展和部署,用户不再只是访问位于数据中心的算力,有的业务需要访问边缘算力,同时也需要云边协同计算。

算力资源需要协同,而网络是用户去往算力资源的必经之路,通常会由算力平台和网络去调配算力。基于此目的,“算力网络”的概念被提了出来,并迅速发展。

5G、全光网、SDN(software defined network,软件定义网络)等网络技术的发展让网络传输不再是限制算力分发的瓶颈。在新技术的支持下,算力网络应运而生。在电力时代,除了电厂,还需要一张“电网”。类比于电网为各类电气电子设备提供电力,算力网络则是为数据的计算提供算力服务的网络。将“算力+网络”作为一体化的生产力统一供给,有利于信息服务新模式的构建。

1.2.2 算力的“网络化”分布

影响算力发展的主要因素是芯片,特别是芯片的性能、成本、功耗三大因素。性能因素,即影响算力处理及输出数据能力的因素,芯片性能受物理效应、制造工艺、封装等方面的影响;成本因素,即影响获取单位算力所需经济投入的因素,如芯片设计成本、芯片制造成本等;功耗因素,即影响使用单位算力所需能耗的因素,如芯片功耗、单位算力功耗比等。受这三大因素影响,硅基芯片算力的发展大致经历了从单核到多核再到网络化的三个阶段。

单核芯片的计算能力将在3纳米芯片制程接近极限,要提高芯片算力,只能逐步向多核发展。同时,随着芯片核数的增加,处理器、存储介质、操作系统与软件间的不匹配会导致多核芯片核心数量在128核时接近上限。因此,随着芯片的单核算力上限和多核数量走向极限,在算力需求持续增长的背景下,自然而然走向算力网络化。

通过从云到端的网络化架构,可以有效提升算力,但仍然有部分算力需求受制于网络带宽、时延,而无法完全满足低时延、大带宽、低成本的应用需求,例如智慧安防网络、CDN加速等场景。因此,边缘计算的形式应运而生。未来,应该是通过构建“云—边—端”的泛在部署架构来满足多样化的算力需求(如图1-2所示)。

在云端,算力由GPU、NPU等芯片产生,通过虚拟平台调度服务器设备进行复杂的数据处理,实现高性能算力的合理运用。

在边缘端,算力由CPU、FPGA等芯片产生,依托于网关设备,通过边缘服务平台在边缘节点实现数据筛选和实时响应,保障数据传输的稳定性和低延时性。

图1-2 泛在算力分布图

在终端,算力由CPU、DSP等芯片产生,操作系统可进行软硬件资源管理,使终端设备拥有更流畅的用户体验。

算力的网络化趋势对网络提出了更高的要求:分布在“云—边—端”的算力资源,通过算力网络整合优化,实现了共享、弹性按需调动;而算力的集中供应也节省了大量分布式边缘节点的投资和运维成本。

1.2.3 算网融合典型架构

近年来,SDN/NFV技术飞速发展。算力网络将边缘算力、中心算力以及各类网络资源深度融合在一起,通过集中控制或者分布式调度方法将云、边、端算力资源整合起来,按需为客户提供包含计算、存储和连接为一体的泛在算力服务。典型的算网融合架构如图1-3所示,该架构共分5层:

(1)算力应用层:承载计算的各类服务及应用,并可以将用户对业务SLA的请求参数传递给算力路由层。

(2)算力路由层:基于抽象后的算网资源,并综合考虑网络状况和计算资源状况,将业务灵活按需调度到不同的计算资源节点中。

(3)算力资源层:利用现有的计算基础设施提供算力资源。为满足边缘计算领域多样性的计算需求,该层能够提供算力模型、算力应用程序编程接口(API)、算网资源标识等功能。

(4)网络资源层:利用现有的网络基础设施(包括接入网、城域网和骨干网)为网络中的各个角落提供无处不在的网络连接。

(5)算网管理层:即算网管理编排层,完成算力运营、算力服务编排,以及对算力资源和网络资源进行管理。该层的具体工作包括对算力资源的感知、度量以及管理等,实现对终端用户的算网运营以及对算力路由层和网络资源层的管理。

图1-3 算力感知网络架构

算力资源层和网络资源层是算力网络的基础设施层,算网管理层和算力路由层是实现算网一体化调度的核心功能层。

当然,算力网络并不是简单地将算力直接在网络中分发,它还需要与算力交易、网络订购等业务关联,形成一个体系架构,才能解决供需匹配和算力交易两个层面的问题。

在供需匹配上,需要实时将用户的需求与算力资源、网络资源进行匹配,以满足不同用户的需求。在算力交易层面,涉及的不仅仅是购买与用户需求相匹配的算力,也包括将相应计算结果及时反馈给网络资源,这些环节都离不开高效稳定的算力交易平台。

1.2.4 算力网络的布局

当前,算力正在逐步成为一个新的衡量国家和地区经济发展的重要指标。发展算力网络,需要建立大规模的数据中心作为载体。企业自建自用的单体数据中心缺乏布局规划,数据中心集群依靠其集约化带来的规模效应,成为算力的基础设施。算力网络是云网融合、算网一体趋势下的新型网络形态,通过数据中心集群间的网络直联,可形成算力资源统筹调配的管道。算力网络的快速发展,推动了低时延、高算力、高带宽要求产品的持续云化演进。

当前,电信运营商、互联网公司及设备厂商从自身的资源禀赋和利益出发,对于算网协同、算网一体、算力网络的发展有着各自的理解,各方都在各自领域展开了积极探索。虽然现阶段各方基于不同的利益考虑会有不同的立场和行动,发展过程中也难免会有矛盾、冲突,但算网融合发展是未来的方向,这是各方的共识。

当前,国内算力网络资源主要集中在三大电信运营商手中,他们当然希望以算力网络为主导来调用算力。而国内算力资源主要集中在几大云服务商手中,如阿里云、腾讯云、华为云等,他们则希望把算力网络当成管道。问题的焦点和本质是谁能拥有算力时代的主导权。国内三大电信运营商虽然也有算力资源,但相比其网络资源优势,其算力资源优势相对处于落后地位。

1.国内电信运营商的算力网络布局

(1)中国电信。

中国电信对算力网络的整体思路是将边缘计算、云计算等多级算力节点与网络进行更进一步的结合,实现云网融合下的资源供给,为用户提供最优的服务以及运营保障。

近年来,中国电信根据客户网络连接需求的变化,持续推动通信网络从传统以行政区划方式组网向以数据中心和云为中心组网转变,实现了四大经济发展区域扁平化、低时延的组网。同时,将骨干通信网络核心节点直接部署到内蒙古和贵州数据中心园区,一跳直达北京、上海、广州、深圳等一线城市或经济热点区域,为全国用户提供低时延、高质量的快速访问。

在“东数西算”的大背景下,中国电信提出围绕全国一体化大数据中心,优化网络架构、降低网络时延,实现算网高效协同,承接“东数西算”业务需求。同时,中国电信计划提升国家枢纽节点核心集群所在区域的网络级别,实现全国至核心集群的高效访问。根据东西部节点间的互补特点,通过架构优化和新技术引入协同,打造多条连接东西部数据中心节点的大带宽、高质量、低时延的直连网络通道;在枢纽节点内部构建高速的互联网络,全面提升核心集群间、核心集群与城市数据中心之间的互联质量。

(2)中国移动。

中国移动把算力网络建设作为企业转型发展的重要机遇,其于2021年发布的《中国移动算力网络白皮书》指出,中国移动将以算力为中心、网络为根基,打造多要素融合的新型信息基础设施。

中国移动的算力网络体系架构主要包括算网基础设施层、编排管理层以及运营服务层。

①算网基础设施层:网络基于全光底座和统一IP承载技术,实现“云—边—端”算力高速互联,满足数据的高效、无损传输需求。用户可随时、随地、随需地通过无所不在的网络接入无处不在的算力,享受算力网络的极致服务。

②编排管理层:编排管理层是算力网络的调度中枢,通过将算网原子能力灵活组合,结合人工智能与大数据等技术,向下实现对算网资源的统一管理、统一编排、智能调度和全局优化;向上提供算网调度能力接口,支撑算力网络多元化服务。

③运营服务层:运营服务层是算力网络的服务和能力提供平台,通过将算网原子化能力封装并融合多种要素,实现算网产品的一体化服务供给,使客户享受便捷的一站式服务和智能无感的体验。同时,通过吸纳社会多方算力,构建可信算网服务统一交易和售卖平台,提供“算力电商”等新模式,打造新型算网服务及业务能力体系。

(3)中国联通。

中国联通聚焦算力中心,打造基于算网融合设计的服务型算力网络,构建“云—网—边”一体化能力开放智能调度体系,形成网络与计算深度融合的算网一体化格局。

一是围绕国家枢纽节点,打造区域内、重点城市间低时延圈,实现区域内、城市内最短时延接入。持续优化骨干传输八大核心节点之间互联的关键大动脉,搭建横贯东西、纵贯南北的高效直达光缆架构。

二是打造算网一体的多云生态精品产业互联网。持续优化网络架构,按需建设产业互联网算力节点,优化传输路径,利用SRv6和SDN等技术构建最短时延算力互访平面,疏通算力资源区域间东西向流量,保障区域间数据中心端到端高质量互访。

三是打造面向边缘算力和多业务融合承载的智能城域网。比如,提升算力服务接入点的覆盖和密度;进一步满足MEC边缘云、5G专网、网络能力资源池等业务承载及用户接入,优化用户访问算力资源体验。

四是构建“云—网—边”一体化能力,开放智能调度体系,实现网络能力、多云及云边算力的协同编排、统一管理、一体化供给和灵活调度。

2.互联网公司的算力网络布局

互联网公司作为网络中最主要的内容提供者,依托强大的技术积淀和用户流量入口,在与电信运营商的利益分配中逐渐占据主动。部分互联网云服务商通过自建骨干网来加强云间互联,在连接弹性及云化可控能力方面表现更为优异。

例如,Google通过自建B4网络连接其位于全球不同地区的数据中心,该网络采用SDN技术实现,在Google全球化算力服务中发挥着重要作用。

阿里云于2017年底发布了云骨干网,可实现全球云数据中心间更低成本的高速互联。与Google自建网络不同,由于受到国内网络监管政策的限制,阿里云骨干网的建设主要依托国内电信运营商的网络资源。

当然,互联网公司对云骨干网建设的探索能够在一定程度上倒逼电信运营商进行服务变革。当前,电信运营商也在不断加强对算网技术的研究,并在部分技术领域实现了与互联网公司的生态融合。

3.设备厂商的算力网络布局

设备厂商聚焦算网协同发展技术创新与设备研发,为算网协同发展提供支撑。设备厂商在算网协同方面的创新主要体现在网络路由转发、算网资源编排调度等方面。

在网络路由转发方面,中兴通讯推出算力敏感IP网络方案,该方案实现了基于SRv6的算网一体协同调度,将SRv6业务编程纳入通用算力服务功能,可实现端到端算网业务的无缝拉通。

在算网资源编排及调度方面,华为推出CloudFabric 3.0超融合数据中心网络方案,该方案支持对多个数据中心进行统一纳管及高速无损互联,可实现业务分钟级部署、故障分钟级修复,极大提升网络运维效率。