英伟达|英伟达下代神秘显卡,230GB显存,2.68TB/s带宽

英伟达|英伟达下代神秘显卡,230GB显存,2.68TB/s带宽

文章图片

英伟达|英伟达下代神秘显卡,230GB显存,2.68TB/s带宽

文章图片


英伟达的一篇新研究论文揭示了一种名为GPU-N的神秘英伟达显卡 , 它可能是对下一代 Hopper GH100芯片的第一眼
研究论文“通过可组合封装架构实现的显卡领域专业化”把下一代显卡设计作为最大化低精度矩阵数学吞吐量以提高深度学习性能的最实用解决方案 。 已经讨论了“GPU-N”及各自的COPA 设计及可能的规格和模拟性能结果


“GPU-N”具有134个SM单元(而A100为104个SM单元)这总共构成8576个核心 , 比当前的安培A100显卡增加了24% 。 该芯片的测量频率为1.4 GHz , 与安培A100和Volta V100的理论频率速度相同(不要与最终频率混淆)其他规格包括60MB的2级缓存 , 比A100增加50% , 以及2.68TB/s的显存带宽 , 可扩展至6.3TB/s 。 HBM2e显存容量为100 GB , 可通过COPA实现扩展到233GB 。 它围绕6144位总线接口进行配置 , 频率为3.5 Gbps

谈到性能数据 , “GPU-N”(大概是Hopper GH100)产生24.2 TFLOPs的FP32(比A100增加 24%)和779 TFLOPs FP16(比A100增加2.5倍) , GH100超过A100非常接近3倍的增益 ,。 与AMD的加速卡MI250X上的AMD CDNA 2 'Aldebaran'核心相比 , FP32性能不到一半(95.7 TFLOPs对24.2 TFLOPs) , 但FP16性能高出2.15倍
我们知道英伟达的H100加速显卡基于MCM(多芯片封装)并使用台积电的5nm工艺节点 。Hopper应该有两个下一代核心模块 , 所以我们总共看到288个SM单元 。 由于我们不知道每个 SM中的核心数量 , 我们还不能给出核心数量的概要 , 但是如果每个SM坚持64个核心 , 那么会获得18432个核心 , 完整GA100的SM多2.25倍 。 英伟达还可以在Hopper显卡中利用更多 FP64、FP16和Tensor核心 , 这极大地提高性能 。 这是与英特尔的Ponte Vecchio竞争的必要条件 , 该Ponte Vecchio预计采用1:1 FP64

【英伟达|英伟达下代神秘显卡,230GB显存,2.68TB/s带宽】最终配置可能会在每个显卡模块上启用144个SM单元中的134个 , 因此 , 我们可能会看到单个 GH100芯片在运行 。 但是 , 英伟达不太可能在不使用显卡稀疏性的情况下达到与MI200相同的 FP32或FP64 Flops浮点性能


    相关经验推荐