AMD|AMD 将用可编程逻辑和其他 XILINX IP 做什么?( 二 )


做些大胆的猜测 , 也欢迎提出你的看法进行交流:
首先 , 我们认为整个 CPU 和整个 FPGA 的单芯片混合实现是不太可能的 , 但有可能会发生共同封装的 CPU-FPGA 混合 。
这是英特尔早在 2014 年就与 FPGA 制造商 Altera 合作的东西 , 甚至在它收购该公司之前 , 然后在 2018 年宣布将“Skylake”至强 SP 处理器与 Arria 10 FPGA 混合在一个封装中的产品 。 我们认为这些不会在数据中心起飞 , 原因与为什么我们在数据中心的单个封装中看不到 CPU-GPU 混合体的原因相同 , 除非是非常特殊的情况 , 例如带有集成显卡的 PC 芯片被重新用作媒体处理服务器引擎 , 就像 AMD 和英特尔过去在其嵌入式产品线中所做的那样 。
在其 frankensocket CPU-GPU 复合体中 , 英特尔将 125 瓦的成熟 20 核 Xeon SP-6138P 与额定 70 瓦的成熟Arria 10 GX FPGA 1150放在同一封装中 。 它们通过 UltraPath 互连 (UPI) 链接进行连接 , 这些链接用于与 CPU 进行共享内存 NUMA 配置 , 这意味着英特尔将 UPI 控制器移植到 Arria 10 上 。 (这个 UPI 控制器似乎不太可能在可编程控制器中实现逻辑 , 但 UPI 协议可能是在硬编码 SerDes 之上实现的 , 该 SerDes 适合 UPI 的时序 , 可编程逻辑填补了空白 。 )Arria 10 GX 没有在 FPGA 复合体上激活 Arm 内核(他们可能一直在那里 , 英特尔从未明确表示过) 。
【AMD|AMD 将用可编程逻辑和其他 XILINX IP 做什么?】这个 frankensocket 的 FPGA 部分的目标应用程序是在可编程逻辑上运行 Open vSwitch 虚拟切换 , 使其运行速度提高 3 倍以上 , 并允许 Xeon CPU 托管 2 倍的虚拟机 , 因为它没有在软件中运行 Open vSwitch在至强核心上 。 我们估计组合设备的成本为 6500 美元 , 当时 Xeon 部分的成本约为 2600 美元 。 据我们所知 , 这个想法并没有席卷市场 , 谈话已经转向卸载虚拟存储、虚拟网络和交换以及加密/解密到 DPU(一种美化的 SmartNIC , 取决于你想要什么定义使用) 。
AMD 十多年来一直在考虑这种混合 CPU-GPU 计算方法及其异构系统架构 , 甚至在一些服务器部件中实现了它们 , 并且显然已经为 PC 和大批量定制游戏机芯片做到了这一点 。 在一定程度上 , Infinity Fabric 互连是 HSA 的一种实现 。
AMD 可以将整个 CPU 和整个 FPGA 集成在一起——由用于 CPU 计算的 frankensocket、用于 FPGA 可编程逻辑的小芯片以及它们两者的共享内存和 I/O 集线器组成——这很有趣 , 因为它可以提供连贯的共享插槽内跨 CPU 和 FPGA 容量的内存 。 使用 Infinity Fabric 链接 , 它也可以跨套接字完成 。 正如我们所建议的 , 使用 Infinity Fabric 交换 , 它可以跨机架甚至跨行完成 。 这是一个强大的想法 。
其中任何一个问题都是锁定任何套接字中的配置 。 CPU 与 FPGA 可编程逻辑的比例会因应用、行业和客户用例而异 。 如果你将 GPU 加入其中 , 你就有许多不同的变量需要排序 , 实际上 , 每个芯片都会及时成为特定客户的定制部件 。 你可以为超大规模企业和云建设者这样做 , 因为数量值得 , 但如果 AMD 想把它卖给其他服务提供商和大型企业 , 它就必须挑选一些 SKU , 而且它所做的任何事情都可能不是最理想的 。
Nvidia 对 FPGA 没有任何用处 , 除了可能用于模拟自己的芯片(如果它在其“Selene”超级计算机上进行所有模拟和验证 , 可能甚至没有) , 该公司的联合创始人兼首席执行官 Jensen Huang , 说这话并不害羞.但英特尔收购了 Altera 而现在 AMD 又收购了 Xilinx 的事实至少表明 , FPGA 在现成 CPU 上运行的编程语言和用于实现某些功能或软件堆栈的定制 ASIC 之间的边界仍然具有吸引力 。 我们一直认为 , 一个平衡的系统将包括所有三个计算引擎 , 例如现代交换机 。 您需要用于快速串行处理和大内存占用的 CPU , 用于快速并行处理和高内存带宽的 GPU , 以及用于加速硬编码算法的 FPGA , 这些算法在 X86 或 Arm 处理器上的软件实现中可用 , 但在由于这些算法变化太大 , 或者因为您无法支付热量或成本溢价 , 因此无法保证定制 ASIC 的数量 。

相关经验推荐