1.2 AI算力新标准MLPerf
MLPerf 是一个公开的、行业标准的基准测试套件,用于衡量人工智能领域的机器学习(Machine Learning)硬件、软件和服务的性能。由于机器学习和深度学习在各个行业中的应用日益增多,因此需要一个统一的基准来比较和评估不同的机器学习解决方案的性能。和TOP500只针对超级计算机不同,MLPerf可以在更小规模的高性能计算机上运行,而且侧重于分析机器学习相关的性能,而非双精度的浮点计算。
MLPerf 由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、斯坦福大学、哈佛大学等顶尖机构发起成立,是权威性最高、影响范围最广的国际AI性能基准测试。MLPerf榜单每年定期发布基准测试数据,其结果被国际社会广泛认可。
目前MLPerf是由MLCommons社区进行维护的,MLCommons作为一个开源社区,聚集了许多学术界、工业界和其他组织的成员,共同努力推进机器学习的开放工程和可持续发展。MLPerf作为MLCommons社区的重要项目之一,体现了该社区对于设立统一、可比较的机器学习性能衡量标准的承诺。
MLPerf包括了从计算机视觉到自然语言处理等多种任务的基准测试,适用于多种硬件和软件平台,无论是在数据中心、边缘设备还是在移动设备上,MLPerf 都提供了基准测试。MLPerf是开源的,这意味着其方法和实现都是公开的,有利于公平的比较。厂商之间的竞争可能会促使它们寻求更好的机器学习解决方案。需要采购机器学习硬件或软件的组织和个人可以参考MLPerf的基准测试结果来做决策,学术界和研究机构可以利用MLPerf来评估和比较自身的研究成果。
MLPerf Training v2.0面向训练算力测试,是该项目的第六个训练版本,由8个不同的工作负载组成,涵盖视觉、语言、推荐系统和强化学习等各种用例。MLPerf Inference v2.0面向推理算力测试,在7个不同种类的神经网络中测试了7个不同的用例,其中3个用例针对计算机视觉,1个用例针对推荐系统,2个用例针对语言处理,还有1个用例针对医学影像。
MLPerf Training v2.0的8个项目如图1-5所示,分别为图像识别(ResNet)、目标物体检测轻量级(SSD)、目标物体检测重量级(Mask R-CNN)、医学图像分割(U-Net3D)、语音识别(RNN-T)、自然语言理解(BERT)、智能推荐算法(DLRM)以及强化学习(MiniGo),这些在AI领域大名鼎鼎的应用构成了MLPerf Training的评估标准。表1-2介绍了MLPerf Training v2.0的8个项目。
图1-5 MLPerf Training v2.0 8个项目
表1-2 MLPerf Training v2.0的8个项目简介
在人工智能系统中,训练(Training)和推理(Inference)是两个核心过程,但它们在计算需求方面存在差异。
● 训练:这是 AI 模型学习和适应数据的过程,通常涉及大量的计算资源。训练通常在大型计算集群上进行,并可能需要数周或数月的时间来完成。在计算密集型的训练阶段需要大量的算力来优化模型的权重和参数,使其能够精确地预测或分类。
● 推理:一旦模型被训练,它就将用于预测新的、未见过的数据,这个过程称为推理。推理通常不需要训练阶段那样的计算资源,因为它使用已经训练好的模型进行预测,不涉及参数的优化或调整。
推理在计算需求上可能不如训练密集,但它是AI交付的关键部分。训练是在后台进行的,但推理直接影响到最终用户的体验,必须快速、准确,并且能够在各种设备上有效运行。因此,尽管推理在计算层面上相对“轻量”,但它在实际应用和交付AI服务方面起着至关重要的作用。在AI推理方面,MLPerf针对数据中心的密集应用、边缘计算、移动设备、微型设备设计了不同的测试项目。MLPerf Mobile基准测试针对智能手机、平板电脑、笔记本电脑和其他客户端系统,MLPerf Tiny基准测试则适用于功耗最低、外形尺寸最小的设备,例如深度嵌入式、智能传感和物联网应用。
2023年4月5日,MLCommons发布了面向数据中心和边缘计算的最新MLPerf Inferencing (v3.0)结果。Intel展示了基于Sapphire Rapids架构的Xeon至强系统,特别是通过优化 AMX (高级矩阵指令)之后的Xeon性能比上次提交结果时有1.2倍到1.4倍的提高。高通自首次提交 MLPerf 1.0以来,Cloud AI 100系统性能提升86%,能效提升52%。这些改进来自AI编译器、DCVS算法和内存使用方面的改进。NVIDIA继续在所有性能类别中保持领先,已经开始应用AI来优化模型,使用GPU的算力来改进GPU光刻工艺,缩短了光掩膜板的开发时间,降低了开发成本。
下面是最新发布的MLPerf 3.0版本Training基准测试和指标的简短总结。每个基准测试由数据集和质量目标定义,表1-3总结了此版本Training基准测试和指标。
MLPerf不仅关注高性能的AI计算,也在云计算、边缘计算、IoT终端方面逐步成为AI测试的基准。2023年更新的MLPerf Inferencing(v3.0)报告了大约6700个推理性能结果和2400个能效测量结果。专家也在这次更新中分享了关于BERT、GPT3/4等大型语言模型的不同观点和讨论,以及它们在基准测试和实际应用中的适用性和挑战,这显示出对于AI领域大模型的飞速发展,MLPerf具有很强的迭代能力。
表1-3 MLPerf 3.0版本Training基准测试和指标
注:
[1] DICE分数是一种用于衡量图像分割任务中模型性能的指标。特别是在医学图像分割中,DICE分数可以量化模型预测分割和实际分割之间的相似性。DICE分数的范围通常在0到1之间,0表示完全不匹配,1表示完全匹配。0.908的平均DICE分数意味着模型的预测分割和实际分割之间有很高的相似性。
[2] mAP(mean Average Precision,平均精确度均值)是一种用于评估目标检测模型性能的指标。它考虑了不同召回率下的精确度,并计算了所有不同对象类别的平均精确度。
[3] AP(Average Precision)是用于目标检测任务的一种指标,用于衡量模型对对象位置的预测准确性。AP考虑了不同召回率下的精确度,通过计算精确度和召回率之间的曲线下面积来衡量模型性能。0.377的Box最小AP指的是模型对目标检测框(对象的边界框)的最小平均精确度。0.339的Mask最小AP指与对象的像素级掩码(对象的精确形状)有关的最小平均精确度。
[4] Perplexity是语言模型中常用的一种性能指标,用于衡量模型对真实分布的预测准确度。理论上,Perplexity越低,模型预测越准确。将Perplexity取对数通常会让数值更容易处理和理解。2.69的Log Perplexity意味着模型的预测性能在某种意义上是良好的。
[5] AUC(Area Under the Curve)即“曲线下面积”,是机器学习中一个重要的性能度量指标,特别用于分类问题。当AUC大于0.5时,表示模型具有一定的分类能力。AUC越接近1,模型的分类性能越好。