WRCA官方微信公众号
  • 首页
    • 机构概况
      • WRCA简介
      • 相关资质
      • 合作单位顾问团队
      • 联系方式
    • 行业要闻
      • 世界纪录动态
      • 世界影响力动态
    • 世界纪录保持者
      • 自然地理
      • 人文历史
      • 科技前沿
      • 工程机械
      • 体育运动
      • 商业财经
      • 农业养殖
      • 航空航天
      • 艺术文化
      • 教育学术
      • 人体生理
      • 土木建筑
      • 动物植物
      • 影视娱乐
      • 宇宙天文
      • 风云人物
      • 节能环保
      • 军事武器
    • 世界影响力获得者
      • 政府机关
      • 景区景点
      • 企业单位
      • 先进个人
    • 案例分析成果转化
    • 申报服务
      • 在线申报
      • 表格下载
      • 申报指南
    • 公示公告
    • 互动交流
      • 公众留言
      • 新闻发布会
      • 在线访谈
      • 意见征集

    世界上最强大的服务器

    来源:未知 时间:2021-09-10 作者: WRCA 浏览量:


    虽然我们是"下一个平台"分布式计算系统的忠实粉丝,但我们永远不会忘记我们在大铁中的传统。我们永远不会忘记,大,胖,共享内存NUMA系统仍然发挥在数据中心的计算光谱的重要位置。我们喜欢大铁,就像我们喜欢肌肉车和打手卡车。

    因此,正是以一定的热情,我们期待IBM的第一台基于其"Cirrus"Power10芯片的服务器——"德纳利"Power E1080系统推出。在这些数据中心部件周围,我们再也看不到很多大铁了。事实上,这些 NUMA 系统的制造商越来越少。它基本上已经归结到IBM与16插座电源E1080和未来的16套系统z16基于"Telum"处理器,我们告诉你大约几个星期前,"龙鹰"超级圆顶Flex 280机器从惠普企业,基于惠普超级圆顶 X 和 SGI NUMAlink 8 技术的混合,如之前的超级圆顶弹性,并使用英特尔的"库珀湖"Xeon SP 8380H 处理器。当然,有四套插座和八套服务器的选择基于库珀湖Xeon Sps从主要的OEM和ODM以及,但这不是真正的大铁,因为我们知道它。

    当然,新的IBM机器是以北美最高的山峰命名的,它位于阿拉斯加,海拔20,194英尺。因此,人们预计,将于2024年左右使用的Power 1180将被称为Aconcagua(仅次于世界第二高峰,在阿根廷,在22,837英尺),并在2027年左右到期的Power 1280将被称为珠穆朗玛峰后,世界最高峰(29,032英尺)在喜马拉雅山。

    之后,随着一个可能的电源1380,我们必须去火星找到一个更高的山峰 - 奥林匹斯蒙斯,盾牌火山,是一个惊人的72,000英尺高。或者,也许到 2030 年左右,IBM 将完成 NUMA 处理器业务,命名不一个问题。很难说。但是,如果真的发生了这种情况,Power11 和 Power12 可以长期为 IBM 的客户提供服务,因为没有真正的大铁竞争,也不可能实现。HPE很乐意挤奶SGI/超级圆顶混合所有它可以 - 主要是运行SAP HANA内存数据库和应用程序,偶尔作为大型内存节点在超级计算机集群和甲骨文已经没有表现出对大铁的兴趣,因为让太阳微系统消失。(甲骨文是安培计算臂服务器芯片和分布式计算的忠实信徒,并正集中精力在这里。

    我们现在可以肯定地说,大蓝仍然相信大铁,而且它正在开发Power11,因为它提供了第一台Power10机器。

    我们将了解为什么大铁在后续故事中仍然很重要,所以现在,让我们把机器的这个野兽的封面拿开,看看周围。去年的这个时候,我们对Power10芯片做了大量分析,我们不会在这里对此进行重述。可以说,如果你想了解Power10芯片,阅读IBM带来一个架构枪芯片刀战斗,然后跟进它与记忆区域网络在IBM的Power10的核心

    与前六代基于电源处理器和其他大型 X86 机器的 IBM 高端 NUMA 机器一样,Power E1080 系统以四插座服务器节点为基本构建基块。

    image.png

    此基本底盘中的四个处理器使用片上 NUMA 电路紧密耦合,Power10 芯片还具有额外的 NUMA 电路,用于将多达四个节点连接到 16 套机。

    以下是德纳利系统四套底盘的示意图图:

    image.png

    以下是当你脱下盖子时德纳利节点的样子:

    image.png

    在上图中从左到右移动,即左侧的 I/O 和系统互连,然后是由四个 Power10 处理器组成的银行,然后是 64 个 DDR4 内存插槽,然后是最右边的风扇和闪存驱动器。

    这是一个非常令人满意的基础-2架构,因为本地节点中的计算和内存紧密耦合,在节点中任意两个处理器缓存和内存之间只有一个快速跳。它只有一两个跳到任何 Power10 芯片是外部给定的节点。(跳数取决于插座的数量以及它与哪个插座交谈。有一个与应用程序匹配的延迟层次结构,尤其是适合相对较小的虚拟计算机的延迟层次结构。

    重要的是,NUMA拓扑已经越来越平坦和奉承每一代,因为每个处理器已经得到了更多的核心,这就是为什么IBM不需要推动到32插座,因为它不得不与电源595系统基于双核Power5芯片早在2004年。当时,每个处理器卡需要 8 张双核芯片才能达到 64 个内核,而现在只需 4 个处理器卡即可完成 240 个内核(如果将收益率发育迟缓的内核计算在内,则实际上是 256 个)。同样重要的是,任何在一个内核上工作的应用程序或数据库都可以扩展到所有 240 个内核,具有合理的线性性能。扁平 SMP 系统无法扩展到此地步。大多数 NUMA 系统也不能,当它们这样做时,性能在四到八个插座后下降得相当快。

    正如我们去年指出的,IBM也正在开发一种尖叫式四套机,它将采用Power10双芯片模块(DCMs),将四个物理插座塞进非常狭窄的空间。到目前为止,我们看到的所有设计都有带有 16 个内核的基础 Power10 芯片,其中一个在三星 7 纳米工艺的芯片收益率曲线的平面部分被击倒,每个内核有 8 个线程或 IBM 称之为 SMT8。IBM 有可能以不同的方式划分 Power10 芯片(就像使用 Power9 芯片一样),其内核的产量是线程的一半。(因此,每个芯片作为单个芯片模块(SCM)有 30 个内核,作为 DCM,每个插座的内核可能高达 60 个。到目前为止,IBM还没有这样做,但它可能在明年某个时候,当进入机器出来。物理内核的隔离确实在每个核心的串行性能和安全性方面提供了一些好处。(核心比线程更孤立。

    正如在Denali系统中交付的,Power10芯片有三种口味:一个10核版本,其基本速度为2.65GHz,涡轮增压高达3.9GHz:12 核版本,基本速度为 3.6GHz,涡轮增压高达 4.15GHz;和 15 核心版本, 有 3.55ghz 的基本速度和涡轮增压高达 4ghz 。这些是我们在 Power8 和 Power9 处理器的 SMT8 版本中看到的时钟速度范围。这意味着 Power E1080 节点可以具有 40、48 或 60 个核,具有四个节点的成熟机器可以具有 160、192 或 240 个核。

    IBM 尚未发布 Power E1080 系统的完整基准测试结果,但它在今天的发布会上确实表示,Power10 E1080 的性能是 2004 年 Power 595 的 6.9 倍:

    从 2004 年到 2021 年,高端系统性能提升的大约一半来自内核的增加,另一半来自让每个内核做更多的工作。Power 指令集已在 Power10 印章中的新微架构中完全重新执行,该缩放将数据类型从现有的整数、浮动点和十进制点(货币数学)扩展到包括适合机器学习推理和可能的其他 HPC 工作负载的新矩阵数学。Power E1080 的推论性能是 Power9 矢量发动机上混合精度数学的 10 倍,当矩阵数学加速器(MMA) 上支持 32 位精度时,这一精度将上升到 20 倍。

    IBM 表示,从性能上讲,Power E1080 的每个插座的吞吐量性能比它所取代的 Power E980 高出 50%,而且两台机器上的插座最大值为 16 个插座,这意味着系统性能也提高了 50%。

    Power E1080 服务器对 IBM 及其客户非常重要,因为它是第一台实现 OpenCAPI 内存接口(简称 OMI)的机器。使用 OMI,IBM 正在使用与 NVLink、OpenCAPI 和 NUMA 互连相同的 32Gb/秒 SerDes 来将内核与主内存连接起来。此接口比 DDR4 内存控制器慢一点,但它占用的面积要小得多,消耗的功率也更少,这使得 IBM 能够将内存控制器和内存插槽在 Power9 和 Power10 机器之间提高 2 倍。通过将内存控制器和插槽翻倍,IBM 可以将每个插座的带宽翻倍,同时使用更便宜、更薄的存储卡来获得一定的容量。

    与"企业级"Power8和Power9 - 企业是E代表的电源E880C,电源E980和电源E1080名称 - IBM已经使用其"Centaur"内存缓冲,它实现了L4缓存,以及作为缓冲存储器控制器。使用 Denali 系统,处理器中会出现 16 个 OMI 链路(每个链路由 8 条 OMI 通道组成,运行速度为 32Gb/秒),每个通道都可以驱动自己的差速 DIMM(DDIMM)。Power E1080 存储卡每个存储卡有四个 DDIMM, DDIMM 上容量为 32GB 和 64GB 的存储卡(因此总容量为 128GB 或 256GB)的存储卡运行速度为 3.2GHz,而使用较胖的 128GB 和 256GB DDIMM(因此提供 512GB 和 1024GB 容量)的存储卡运行速度较慢,为 2.93GHz。这意味着使用更薄内存的 Power10 插座可以提供 409.6GB/秒的带宽,使用更胖内存的 Power10 插座可以提供 375.4GB/秒的带宽。

    以下是 OMI 存储卡的外观:

    image.png

    以下是基于 Power8 的电源 E880C、基于 Power9 的电源 E980 和基于 Power10 的电源 E1080 的馈送和速度:

    这些功能在带宽和容量方面以最大可能的配置显示。

    Power E1080 的核心计数增加了 25%,从而推动了吞吐量的运行。最大内存保持不变,但 IBM 可以使用更便宜的 DIMM 来驱动容量,并且带宽增加了 1.79 倍,这要归功于每个插座内存控制器和插槽的翻倍,其中一些由 OMI 内存控制器上的较低带宽与 Power9 芯片中使用的普通香草 DDR 内存控制器相比进行还原。每个节点的内存带宽与 GPU 加速器相当,或每个插座 GPU 的四分之一左右,这对 CPU 来说还不算太坏。I/O 子系统的带宽与移动到 PCI-Express 5.0 外围控制器大致相同,但 IBM 只需要一半的车道,才能产生 Power E1080 系统中每个节点的 576GB/秒带宽。我们所看到的演示文稿显示,Power11 芯片的 PCI 速成 5.0 车道数将是 Power10 的两倍。

    IBM 正在接受 Power E1080 系统的订单,预计从 9 月 17 日开始提供单节点或双节点配置。在这些早期的机器中,每个节点最多只能支持 4TB(这意味着更薄的 OMI 存储卡)。IBM 将从 10 月开始提前访问三节点和四节点配置,并计划在 12 月提供这些更胖的设置以及更胖的 OMI 内存。

    接下来,我们将讨论 Denali 系统的性能和安全功能,并将其与今天的其他大型铁制机器进行比较。


    (责任编辑:WRCA )

    声明:本站所有原创文章商业转载请联系WRCA官方获得授权,非商业转载请注明出处,否则均视为侵权。

      相关阅读: