算力芯片:高性能CPU/GPU/NPU微架构分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 从TOP500和MLPerf看算力芯片格局

1.1 科学算力最前沿TOP500

TOP500是一个定期评估和列出全球最强大的500台超级计算机性能的组织,在TOP500获得较高排名或者占有较多算力资源,是企业甚至国家科技竞争力的重要体现。TOP500列表每年更新两次,分别在6月和11月发布。

TOP500使用High Performance Linpack(HPL)基准测试来评估超级计算机的性能。这个基准测试测量的是计算机在解决一组线性方程时的浮点计算性能。通过 TOP500 列表,研究者和工业界可以了解哪些国家、企业和研究机构拥有最先进的算力,对于推动科研和技术发展具有重要的意义。

TOP500为各大制造商、研究机构和国家提供了一个竞技场,从国家维度分析超级计算机数量占比和性能占比如图1-1所示,为了在该榜单上名列前茅,各方都在努力推进技术的边界。TOP500的姊妹项目——Green500,更关注超级计算机的能效,因为随着能源成本的增加和环境问题的加剧,能效变得越来越重要。

当然,除了竞争还有合作,许多顶级的超级计算机项目都是国际合作的结果。TOP500为这些合作提供了一个展示平台,促进了全球的技术交流和合作。

在2004年6月22日公布的全球高性能计算机TOP500排行榜中,曙光4000A的峰值运算速度达到10.2 TFLOPS,在2004年6月公布的全球超级计算机TOP500排行榜中,位列全球第十。这是我国国产超级计算机首次进入全球排名前十,也标志着我国成为继美国、日本之后第三个成功研发和应用跨越了每秒10万亿次超级计算机的国家,随后我国在超级计算机算力方面开始“狂奔”。

2010年10月,天河一号在TOP500榜单上名列第一,成为当时世界上最快的超级计算机。天河一号是我国的超级计算机第一次进入该榜单前五名,并且直接跻身榜首。2013年6月,天河二号又名列 TOP500 榜单首位,且在连续几年内保持了这一地位。天河二号也是由国防科技大学设计的。天河一号采用6144个通用多核处理器和5120个图形加速处理器GPU,其中GPU型号正是消费者熟悉的ATI高端GPU产品HD 4870 X2,这种CPU+协处理器的方式增强了浮点算力。

图1-1 从国家维度分析超级计算机数量占比和性能占比

2016年6月,神威·太湖之光超过天河二号,成为TOP500榜单上的新冠军,且在随后的几次评测中都保持了这一地位。更值得注意的是,它完全使用我国自主研发的处理器。神威·太湖之光使用的SW26010处理器基于自主开发的64位RISC架构,包含4个集群或称之为核心组(CG),以及一个协议处理单元(PPU)。每个核心组拥有64个计算单元(CPE),一个SW26010处理器就达到了256个核心的高集成度,单芯片提供了2.969 TFLOPS的双精度浮点算力。

TOP500 榜单为我们提供了关于超级计算机的发展趋势,客观地反映了当前和过去的趋势,通过分析 TOP500的数据,可以对未来的计算机结构趋势做出一定的猜测,而且通过观察 TOP500的计算机结构,可以得到高性能、高密度的算力芯片发展趋势和未来计算机结构的启示,具体如下。

● 多核和众核的兴起:过去的几年里,超级计算机从单核处理器过渡到多核和众核处理器。这显示出面对复杂的高并行度计算任务,在摩尔定律遇到物理限制时,增加核心数是提高性能的有效途径。

● 异构计算:GPU和其他加速器在超级计算机中的应用逐渐增加,这表明异构计算在提高性能和能效方面具有优势,毕竟 CPU 有太多逻辑用于指令控制,它能够确保精确且低延迟地执行复杂任务,而 GPU 等芯片能够通过密集的线程管理和单指令多线程或单指令多数据的方式,甚至采用低精度计算,来快速提升算力,特别是针对人工智能领域的大模型训练算力。

● 高速互连技术:随着超级计算机规模的扩大,高吞吐量、低延迟的互连技术变得尤为重要,这意味着未来的计算机结构将更加重视数据的快速移动和处理。业界对算力芯片拓扑结构的重视程度甚至高于对单核心处理器内部的指令和存储系统的重视,尤其是近几年,大量结构复杂的多核心芯片提供了之前无法想象的算力和集成度。

● 能效关注:Green500的出现表明能效是未来计算机设计的关键之一,这可能会影响计算机结构,使其更加注重单位电能消耗下的高性能处理器设计。

● 存储系统进步:虽然TOP500的重点是计算性能,但随着数据驱动的应用增多,存储性能也变得越来越重要。未来的算力芯片会有更高效的存储系统,更大的高速缓存和多级别的存储体系构建。近存计算概念的提出,不但扩展了存储容量,极大地提升了芯片本身的性能,而且在此过程中降低了数据搬运的功耗。