AMD|AMD 将用可编程逻辑和其他 XILINX IP 做什么?( 三 )


我们认为将 FPGA 可编程逻辑嵌入到每个 CPU 插槽甚至每个 GPU 插槽中作为这些设备的一种暂存器 , 这样它们就可以拥有散列算法、加密算法、安全协议或虚拟开关的元素 , 这绝对是一件有趣的事情(或部分完成)在 FPGA 中 , 而不是在 CPU 或 GPU 芯片上的逻辑块中 , 在添加到 CPU 或 GPU 插槽的单独小芯片中 , 或在 CPU 上运行的更高级别的软件中 。 多年来 , IBM 已经在其 System z 和 Power 处理器中添加了此类暂存器(请注意 , 不是用 FPGA 逻辑实现的) , 允许它们实现新指令或创建复合指令 , 这些指令在芯片流片了 。 这不会是芯片/插座空间的很大一部分 。
我们绝对认为很快就会有 Versal FPGA 混合使用 Xen X86 内核交付 , 我们认为 Vitis 堆栈将进行调整 , 以便能够将代码编译到这些内核以及 Versal 计算的其他元素复杂的 。 我们认为 AMD 不太可能将 X86 或 Arm 内核引入其 GPU , 但我们确实认为该公司可以创建一系列混合了 FPGA 和 X86 内核的 SmartNIC 和 DPU——如果它的话 , 甚至可能是婴儿 GPU具有建筑意义 。 AMD 是 SmartNIC 的新手 , 但 Xilinx 不是 , 尤其是在 2019 年 4 月收购 Solarflare 之后 。
我们希望看到 AMD 这样做 。 创建一个高性能的 Zen4 内核 , 去掉所有矢量引擎的内脏 , 并在芯片上放置更多内核或在芯片上放置更多更快的内核 。 我们选择后者是因为在这个 CPU 上 , 我们想要惊人的串行性能 。 我们想要这个东西上的 HBM3 内存 , 我们想要至少 256 GB 的容量 , 这应该是可能的 。 大量的 Infinity Fabric 链接从单个插槽中脱落 。 最高500瓦 , 我们不在乎 。 现在 , 在系统板左侧的旁边 , 我们想要一个杀手级“Aldebaran” Instinct GPU , 而 MI200 的一半可能就足够了——Instinct MI200 在一个封装中具有两个逻辑 GPU– 或者可能需要配备四台毕宿五发动机的完整 MI300 。 这将取决于客户 。 在 GPU 周围也放置大量 HBM3 内存 。 在 CPU 的右侧 , 我们想要一个 Versal FPGA 混合 , 其中包含更多的 Infinity Fabric 链接 , 去掉了 Arm 内核 , 保留了 DSP 引擎和 AI 引擎 , 以及所有硬块互连的东西 。 这是一个集成的可编程逻辑引擎 , 在需要时可以像 DPU 一样工作 。 Infinity Fabric 通道可以从这里断开以创建集群 , 或者直接断开 GPU 和 CPU , 但我们喜欢在 DPU 上实现 Infinity Fabric 交换机的想法 。
现在 , 利用这些计算引擎模块 , 允许客户在系统板上、机架内和跨行配置他们需要的比率 。 也许有一个客户需要为每个 CPU 配备四个 GPU , 为每个具有单个 Infinity Fabric 交换机的复杂系统配备两个 DPU 。 在另一种情况下 , 可能由于延迟原因 , GPU 更靠近 DPU(想想现代超级计算机) , 而 CPU 挂在 GPU 的一侧 。 或者 CPU 和 GPU 都从 DPU 集线器发出 。 或者 CPU 处于环形拓扑结构中 , 而 GPU 处于机架内的胖树中 。 将其全部设为 Infinity Fabric , 并使拓扑在 Infinity Fabric 交换机上可更改 。 (不同的工作负载需要不同的拓扑结构 。 )每个组件都经过高度调整、精简 , 完全没有脂肪 , 硬件与软件绝对协同设计 。

相关经验推荐