云数据中心网络架构与技术(第2版)
上QQ阅读APP看书,第一时间看更新

2.4.1 高性能计算需要超融合数据中心网络

以人工智能为代表的一系列创新应用正在快速发展,而人工智能后台算法依赖海量的样本数据和高性能的计算能力。要满足海量数据训练的大算力要求,一方面可以提升CPU单核性能,但是目前单核芯片工艺制程在3nm左右,且成本较高;另一方面,可以叠加多核,但随着核数的增加,单位算力功耗也会显著增长,且总算力并非线性增长。据测算,当CPU核数从128增至256时,总算力水平无法提升至原有算力水平的2倍。

随着算力需求的不断增长,从P级(PFLOPS,千万亿次浮点运算每秒)向E级(EFLOPS,百亿亿次浮点运算每秒)演进,计算集群的规模不断扩大,对集群之间互连网络的性能要求也越来越高,这使得计算和网络深度融合成为必然。

在计算处理器方面,传统的PCIe(Peripheral Component Interconnect express,一种高速串行计算机扩展总线标准)的总线标准由于单通道传输带宽有限,且通道扩展数量也有限,已经无法满足目前大吞吐高性能计算场景的要求。当前业界的主流解决方案是在计算处理器内集成RoCE(Remote Direct Memory Access over Converged Ethernet,基于聚合以太网的远程直接存储器访问)以太端口,从而让数据通过标准以太网,在传输速度和可扩展性上获得了巨大的提升。

这里的Remote Direct Memory Access(RDMA,远程直接存储器访问)是相对于TCP(Transmission Control Protocol,传输控制协议)而言的,如图2-6所示,在服务器内部,传统的TCP协议栈在接收/发送报文,以及对报文进行内部处理时,会产生数十微秒的固定时延,这使得在AI数据运算这类微秒级系统中,TCP协议栈时延成为最明显的瓶颈。另外,随着网络规模的扩大和带宽的提高,宝贵的CPU资源越来越多地被用于传输数据。

图2-6 RDMA与TCP的对比

RDMA允许应用与网卡之间的直接数据读写,将服务器内的数据传输时延降低到接近1μs。同时,RDMA允许接收端直接从发送端的内存读取数据,极大地减少了CPU的负担。

在高性能计算场景中,当前有两种承载RDMA的主流方案:专用IB网络和以太网。然而,IB网络采用私有协议,架构封闭,难以与现网大规模的IP网络实现很好的兼容互通,同时IB网络运维复杂,OPEX居高不下。

用以太网承载RDMA数据流,即前文提到的RoCE,已应用在越来越多的高性能计算场景中。