3.时势论英雄
1993年,德国曼海姆大学汉斯(Hans Meuer, 1936—2014)、埃里克(Erich Strohmaier)等人发起创建了全球超级计算机TOP500排名榜。TOP500目前由德国曼海姆大学、美国田纳西大学、美国能源研究科学计算中心(NERSC)以及劳伦斯伯克利国家实验室联合举办,每年排名两次,已成为全世界最具权威的超级计算机排名榜,是衡量各国超级计算水平的最重要的参考依据。
TOP500排行榜起源于曼海姆超级计算机统计(Mannheim Supercomputer Statistics)。从1986年到1992年,德国曼海姆大学超级计算机研讨会(Super-computer Seminars at Mannheim University)每年发布一份“曼海姆超级计算机统计”报告,简单罗列安装在美国、日本和欧洲的向量计算机系统——那一时期,超级计算机是向量计算机的同义词。
汉斯在回顾发起TOP500缘由时说:“我们注意到,这期间,人们对超级计算机这类数据的关注程度逐年提高。但由于向量计算机的统计是由系统制造商们自己申报的,所以统计数据的可靠性并不高,缺少一个可靠的数据库。另外,像日本Fujitsu VP30/50这类所谓的入门级向量计算机、美国Convex C1/2这种迷你型超级计算机始越来越流行,从性能上来看,这些系统是否是真正意义上的超级计算机呢?我们不得不开始非常谨慎地考虑,到底哪些系统符合超级计算机的定义,应该被纳入这一统计。从20世纪90年代初开始,向量计算机已经不再是唯一的超级计算机结构,大规模并行系统如Thinking Machines (TMC)的CM2也开始进入市场。因此,我们需要一套方法来定义到底什么是超级计算机,由哪些部分组成,根据什么对这些计算机进行排名。”
在1993年春天启动TOP500项目时,创始者们提出了一些简单的指导原则:①对全球范围内最强大的500台计算机进行排名;②用Rmax(即最好的Linpack性能)做Benchmark(基准测试); ③排行榜每年更新和发布两次——6月在德国的ISC(国际超级计算大会), 11月在美国的SC(超级计算大会); ④所有的数据都在www.top500.org进行公示,以供公众查阅。
汉斯还对一些基本的问题进行了解答。
——为什么是“500台最强大的超级计算机”? “一个原因是因为1992年我们做最后一次‘曼海姆超级计算机统计’时发现全球范围内已经有530台超级计算机。另一个确切的原因是,受到了福布斯500排行榜的影响,这个排行榜统计的是全世界最富有的500个人和规模最大的500家企业。”
——为什么选择Linpack? “这主要是因为Linpack的Rmax指标广为人知,而且对所有系统来说也比较容易获得。严格来看,TOP500中所列的计算机仅仅是考察了它们在解决一组线性方程时的能力,比如,A x = b, using a dense random matrix A。”
——为什么一年两次对TOP500排行榜进行更新,而非持续不断地更新?“首先,更新TOP500排行榜是一件非常费时的工作,程序也比较复杂。其次,我们认为,每年更新两次已经足以揭示HPC业界主要关心的那些重要的变化趋势,而且多年的经验也证明这点考虑是正确的。”
2014年1月23日,TOP500官方网站宣布,几乎在每一届国际超级计算大会上致开幕词的汉斯教授因癌症去世。而此时,第42届TOP500排行榜才公布了不到两个月。
尽管速度并不是衡量计算机能力的唯一因素,速度却是为全球最强计算机进行排名的最科学指标。
2014年6月23日发布的第43届排行榜上,第一名是中国国防科技大学研制、安装在国家超级计算广州中心的“天河二号”。它的浮点运算速度为每秒33.9千万亿次,比第二名快了近一倍。这是“天河二号”自2013年6月以来第三次夺冠。部署在国家超级计算天津中心、曾为中国摘得首枚超算“金牌”的“天河一号”此次下降至第14名。
第二名:泰坦(Titan)。部署在美国能源部橡树岭国家实验室中的Titan继续保持第二。Titan搭载Cray公司的XK7系统,使用560640个AMD皓龙处理器核心和261632个英伟达K20x加速器,运行速度为17.59千万亿次/秒。Titan是榜单上最节能的机器之一。
第三名:红杉(Sequoia)。搭载IBM的BlueGene/ Q系统的Sequoia安装在美国能源部劳伦斯·利弗莫尔国家实验室,名次与上届相比并无变化。Sequoia最早于2011年交付使用,取得了每秒17.17千万亿次运行速度,该超级计算机使用了1572864颗核心。
第四名:京(K)。富士通制造的K计算机安装在日本神户化学研究所高级计算科学研究院(AICS),使用了705024颗SPARC64处理核心,运算速度为10.51千万亿次/秒。“京”曾在2011年6月取代“天河一号”成为当届冠军。
第五名:米拉(Mira)。美国能源部阿尔贡国家实验室的Mira采用了第二代BlueGene/Q架构,核心数量比排名第八的Juqueen要多得多,因此性能达到了几乎翻番的每秒8.59千万亿次。
第六名:代恩特峰(Piz Daint)。位于瑞士国家计算中心的这台计算机速度每秒6.27千万亿次,从第42届榜单开始进入前10名,也是欧洲最快的超级计算机和前10名中能效最高的超级计算机。
第七名:Stampede。德克萨斯大学德克萨斯高级计算中心的Stampede运算速度为5.17千万亿次/秒。
第八名:Juqueen。Juqueen位于德国尤利希研究所,是目前欧洲第二快的超级计算机。Juqueen搭载了IBM的BlueGene/Q系统,在Linpack测试时处理能力可达每秒5.01千万亿次浮点运算。
第九名:Vulcan。Vulcan位于美国能源部劳伦斯·利弗莫尔国家实验室,在Linpack基准测试运算速度达到4.29千万亿次/秒(petaflop/s)。
第十名:美国政府的一台没有名字的Cray XC30计算机,Linpack测试速度为3.14千万亿次/秒,不到“天河二号”的十分之一。这台并未透露具体安装地点的机器是第43届TOP500排行榜前10名中唯一的“新人”。它取代德国莱布尼兹超级计算中心、欧洲排名第三的SuperMUC,成为与上一届差别不大的新榜单上最显著的变化之一。
新一届榜单要点包括:
——2014年6月世界上最强大的500台超级计算机总性能达到每秒274千万亿次浮点运算,这一指标在2014年1月和2013年分别为每秒250千万亿次和223千万亿次。但TOP500组织在一份声明中说,从榜单看,超级计算机的整体性能提升速度已降至历史最低点——例如,在1994年至2008年间,榜单最后一名的计算性能平均每年提升90%,而过去5年每年只提升了55%。
——目前世界上共有37套系统突破了Linpack千万亿次大关,比6个月前增加了6套。
——世界TOP500中TOP10的最低性能都超过了3.1Pflops,其中4台由IBM公司制造,3台来自Cray公司,国防科大、富士通公司和Dell公司各1台。高端能力超算(TOP10)的研制呈现出百花齐放的局面,各家都在积极占领制高点,但IBM公司优势明显。
——世界TOP500中96%的机器使用6核及以上处理器,83%的机器使用8核及以上处理器。62套系统采用加速部件加速,比上一届榜单的53台多出9台。其中44台采用Nvidia的GPU, 17套系统采用Intel MIC。85.4%的机器使用Intel处理器,IBM和AMD是处理器的第二和第三大厂商,AMD的份额比6个月前下降了3个百分点。
TOP500运行的最初10年里,中国的高性能计算机未曾向国际申报Linpack性能测试结果,因此未能列入TOP500排行榜。2002年,联想深腾1800万亿次机群名列2002年世界TOP500第43名,结束了在TOP500排行榜里没有中国产高性能计算机的历史。
截止2014年6月,中国研制的天河系列超级计算机第4次夺取世界第一名,牢牢站稳了中国在TOP500超级计算机俱乐部的冠军位置。同时,中国进入新一届榜单的超级计算机总数名列亚军,共有76台超级计算机上榜,比上一届大幅增加13台。而在10年前的TOP500榜单中,中国的上榜机器仅为个位数。除了天河系列计算机,继续进入榜单的中国国产超级计算机还有来自曙光星云、神威蓝光的多台机器,它们这一次的最高排名分别为第28名和第46名,较上一届略有下降。
与国际TOP500相对应,中国软件行业协会数学软件分会自2002年起每年发布一次中国高性能计算机排行榜(TOP100),至今已历12年。2013年TOP100排行榜中机器的平均Linpack性能为570Tflops,而2013年国际TOP500排行榜中机器的平均Linpack性能为448Tflops。这意味着,中国与世界平均性能差距从原来的落后近一年提升为比国际平均水平高27%。
“出现跨越式发展的主要原因是我国仅天河二号一台超级计算机的Linpack性能就占中国TOP100总性能的近60%! ”张云泉说,“因此,如何用好天河二号、发挥其巨大的计算能力,成为未来两三年中国超级计算行业面临的挑战性问题。”
2013年中国TOP100的机器中,美国厂商制造的机器数量占装机总数的48%,国内厂商份额为52%。在曙光、浪潮、国防科大、神威、中科院工程所和联想等国内厂商的努力下,国外厂商已经很难达到2002年占装机总数76%的绝对优势状态。曙光公司与IBM公司并列数量份额第一名,而曙光公司已连续5年保持总数量份额第一。
中国高性能计算的发展开始进入快速发展期,第一名性能开始出现大幅度的跳跃。未来两三年,中国会相继发布一系列新的国产超级计算机。
超算领域的应用与研发同等重要,这决定了在TOP500排行榜上拥有机器的数量——无论机器由谁制造,成为衡量各国科技实力的最重要因素之一。
美国仍然是世界最强超级计算机的最大用户,拥有500台机器中的233台,尽管绝对数量较上一届有所下降,仍旧是占了大半壁江山;在前10名中,美国占据6席;在37套Linpack千万亿次系统中,美国占据15席。从制造厂商来看,仅是惠普、IBM、克雷三家美国公司,就制造了500台机器中的409台,装机份额占81.8%,遥遥领先于其他所有国家的制造商。
自世界上第一台超级计算机在美国诞生以来,美国的超级计算机研制和产业一直处于世界前列,在大多数时间里占据着TOP500排行榜第一名的位置,以至于我们在谈论世界高性能计算机发展的过去时,很多时候指的就是美国的高性能计算机发展史。几十年来,美国开发了用于大型超级计算机的大多数基础技术,并在其许多研究实验室和大学制造了一批规模最大、速度最快的超级计算机,其中一些顶级超级计算机用于模拟核试验,其他一些则用于预测天气、能源等领域的研究。
从1982~2005年,美国国防部、能源部、国家科学院、国家科学基金委以及美国总统信息技术顾问委员会、美国信息技术咨询委员会、美国国家竞争力委员会等提出的有关信息技术和计算机的建议报告中,大都涉及了高性能超级计算机的内容。2011年之后不到两年的时间里,美国先后投入巨资成功研制红杉和Titan,先后两次重新夺取世界第一。美国目前正在积极构建运算能力超越中国天河系列的超级计算机系统。
机器份额排在美国、中国之后的是日本、英国、法国和德国。
“京”的成功并非偶然。在研发超级计算机方面,日本属于起步较早的国家之一。自20世纪90年代起,日本意识到超级计算机研发是提高其国际竞争力的重要一环,不断推出和更新超级计算机的研发计划。最新TOP500排行榜中,日本上榜机器为30台,但在37套Linpack值突破千万亿次的计算机中日本占了5席,超过中国的三席。
1999年,日本投入400亿日元(约为人民币25亿元),开始名为“地球模拟器”的超级计算机研发,旨在通过在计算机内置“虚拟地球”预测及解析整个地球大气、地壳、地震等活动为目的。2002年,“地球模拟器”成功推出,将一直独占鳌头的美国挤下了头把交椅。之后,由于预算资金削减原因,日本超级计算机的研发政策发生了转向,从政府主导型开始向产学一体化、为民生提供更多贡献的方向发展。
不过,2011年6月由日本富士通公司研发、日本理化学研究所组装、并接受来自日本政府资助的“京”超级计算机以每秒8162万亿次运算速度成为当时全球最快的超级计算机。这是时隔7年后日本重返世界超级计算机榜首。
在湖南长沙“2013高性能计算国际论坛”上,“京”计算机设计师大介博库(Taisuke Boku)教授坦陈,超级计算机发展首先需要政府支持。“今天的超级计算机研制不仅仅是某一家公司的事了,在日本,这是国家工程。”
欧洲采取“化零为整”的联合手法,共同打造“超超级”计算机。2010年6月,投资数亿欧元、20个国家参与、每秒速度达百万兆次的超级计算机合作平台计划在西班牙巴塞罗那启动。此计划旨在通过建立一个连接欧洲各种计算资源的基础设施,增强欧洲的超级计算能力。最新TOP500排行榜中,英国、法国、德国三国的上榜机器总数为79,比6个月前增加了14台。在37套Linpack值突破千万亿次的计算机中,欧洲占了14台。
来自德国的计算机科学家施密特(Sebastian Schmidt)在“2013高性能计算国际论坛”上表达了对中欧合作前景的信心:“合作前景非常美好,因为我们面临的问题是相同的,比如智能性社会和能源问题。因此,我们需要共同努力,需要在科学家之间、计算机工程师之间开展广泛的合作。”
最新TOP500排行榜中,俄罗斯有5台机器上榜,最高排名为世界第42位,名次比6个月前有所下滑。俄罗斯最强的超级计算机是莫斯科大学研制的“罗莫诺索夫(Lomonosov)”计算机,理论峰值和Linpack实测数值分别是1.7千万亿次浮点运算/秒和0.9千万亿次浮点运算/秒。
印度也是世界上为数不多的自主拥有超级计算机的国家,它以低廉的成本研制出了高品质和具备高速运算能力的超级计算机。2007年的全球TOP500排行榜中,印度首次有超级计算机打入世界第4位。印度的IT产业具备强大潜力,在最新500强中印度占有9席,最高排名为第44名,与6个月前相比实现了大步跨越。
曾经夺得世界第4名的计算机EKA位于印度塔塔集团计算研究实验室(CRL)。CRL公司CEO维平·乔杜里(Vipin Chaudhary)早在2007年就认为,CRL具有建造世界最快超级计算机的能力:“CRL并不看重保持排名,如果需要,我们就能设计和建造出最快的计算机系统。”
据报道,俄罗斯超算公司RSC集团和俄罗斯科学院日前提议与印度合作,共同建造先进的超级计算机设备。
纵观诸雄逐鹿的世界超算战场,可以发现四大趋势——
第一,超级计算一直是世界大国必争的战略制高点,西方强国保持超级计算领先地位的决心从未改变。“天河一号”夺取世界第一,进一步加剧了国际竞争。继中国夺冠之后,遭受“311地震”重创的日本投资“京”10亿美元以上,提前于2011年6月夺取世界第一;美国IBM为“红杉”投资11亿美元,提前半年于2012年6月夺回世界第一;美国Cray则在2012年底推出“泰坦”——希腊神话中拥有超强能力和巨大形体的统治者,再拿世界第一。
第二,在经济危机席卷全球的大背景下,西方把发展超级计算作为振兴实业经济的工具,既可直接带动微电子、光通信、软件研发等相关产业发展,又可间接支撑生物医药、金融分析、新材料等新兴产业的发展。2012年4月出版的《科学美国》(Scientific American)刊文称:“振兴美国制造业的关键在于让美国的超级计算机为中小型制造商服务,建议在美国政府、制造业界和大学之间建立一种协同机制,帮助中小型制造商克服缺少软件、技能短缺等使用超级计算的障碍。”美国著名计算科学家杰克·唐加拉(Jack Dongarra)教授也认为:“西方国家把投资超级计算作为应对经济危机的主要手段之一,加大投资力度,加快研制进程。”这几年的发展趋势表明,美国等西方国家正在将超级计算推向一个“产业贯通式”深化发展的阶段,中小型企业普遍应用超级计算的时代正在到来。
第三,当前西方强国在超级计算领域的优势得益于自然科学的领先地位,得益于长期的投入和核心技术的突破,得益于信息产业的整体优势;尽管中国超级计算机几度领先全球,尽管来自亚洲的机器份额逐年上升,西方强国的领先优势目前并没有改变。
第四,协同设计(Co-design)正成为支撑超级计算领域持续发展的重要途径。超级计算机研制正从系统研制为主的发展模式,转变为使能技术、系统技术和应用技术相结合的“生态环境”一体化发展模式。这种发展模式充分利用了公司、大学、研究机构的协同创新,持续加大微处理器设计、工艺结构、编程模型等领域的协同创新力度;同时,应用领域的协同创新正在深化,美国和日本的超算应用模式日趋成熟。
克雷公司研制的“泰坦”在2012年11月至2013年6月之间是世界上最快的超级计算机。它部署在美国能源部下属的橡树岭国家实验室,由同样来自该实验室的“美洲虎”多次升级改装而成。