导读:3D V-Cache 是 AMD 开发的一项新技术,可以让 L3 缓存垂直堆叠,这样可以在占用很少空间的情况下显着增加缓存的大小。
近日,科技评论网站Chips and Cheese发布了 AMD 新3D V-Cache技术的评论,展示了其与前几代 Zen 处理器相比的性能。Chips and Cheese 选择了 AMD 的 EPYC(霄龙)服务器处理器来担任这个角色,包括支持 3D V-Cache 的 EPYC 7V73(Milan-X)和 vanilla Zen 3 EPYC 7763(Milan)。
3D V-Cache 是 AMD 开发的一项新技术,可以让 L3 缓存垂直堆叠,这样可以在占用很少空间的情况下显着增加缓存的大小。AMD 已经通过新技术展示了令人印象深刻的性能提升,因为它允许 CPU 内核始终如一地获得更多信息。
单独比较 Zen 3,有无 3D V-Cache 时,Chips and Cheese 注意到,当测试没有使用更多的 L3 缓存时,带有 3D V-Cache 的EPYC 7V73的性能仅比普通 Zen 3 EPYC 7763 差一点。7763 必须提供什么。延迟差异为三到四个周期,由于 3D V-Cache,这是一个必要的权衡。
然而,一旦 7763 上的缓存被填满,7V73 凭借其巨大的缓存大小,使得芯片的延迟比 7763 显着减少,直到 3D V-Cache 被填满。有趣的是,7V73 的内存延迟也比 7763 略低。
在将 Zen 1 和 Zen 2 EPYC 芯片(如 7551 和 7452)添加到组合中时,我们看到了 AMD 3D V-Cache 芯片真正经过精心设计的更好画面。Chips and Cheese 指出,L3 缓存设置为从 Zen 1 计数到 Zen 2 会产生大约 5 个周期的额外延迟。然后从 Zen 2 统一 Zen 3 上的双 16MB L3 缓存块的举措增加了更高的 7 到 8 个延迟周期。
与此同时,AMD 从 Zen 3 迁移到 Zen 3 3D V-Cache,并将 L3 缓存大小增加三倍只需要三到四个周期的延迟,这是迄今为止我们看到的最微不足道的损失。
Chips and Cheese 的图表显示,所有 Zen 世代的 L1 和 L2 缓存延迟几乎相同。尽管如此,当谈到 L3 缓存时,延迟会随着代际之间的 L3 缓存使用量的增加而减少,尤其是在 Zen 3 到带有 3D V-Cache 的 Zen 3 中。
带宽
在带宽结果中,Chips and Cheese 发现 AMD 的 7V73X 3D V-Cache 提供的带宽不如 AMD 所宣传的那么多。在测试中,它注意到 7V73X 在单线程缓存带宽测试中每个周期只增加了大约 25% 的字节——这与 AMD 承诺的 2 倍带宽增益相去甚远。
然而,Chips 和 Cheese 认为,一旦 CPU 处理利用 L3 缓存的更大工作负载,时钟速度可能会降低,这确实解释了这种差异。
另一个奇怪的现象出现在7V73X上,单颗CCD缓存带宽测试显示,3D V-Cache芯片的带宽相比标准7763略有不足,约为12.5%。Chips and Cheese 怀疑这是为了控制功率,因为两个芯片上都加载了 64 个内核。这很有意义,因为 3D V-Cache 确实占用了更多空间并且需要更多的功率,这使得 CPU 冷却变得更加复杂。
有趣的是,同样的现象也发生在 AMD 基于 Zen 2 微架构的 EPYC 7452 芯片上。EPYC(霄龙)7763 Zen 3 CPU 是唯一一款在单 CCD 带宽测试和单线程带宽测试中表现均等的芯片。
对于那些想知道 Zen 1 的人来说,缓存带宽甚至比 Zen 2 和 Zen 3 还差。在绝大多数测试中,经过测试的 EPYC 7551 的带宽不到一半。直到测试的中期和结束阶段,它才接近赶上。
结论
那么所有这些数据在现实世界的表现方面意味着什么呢?Chips and Cheese 运行了多个基准测试,包括 Gem5、libx264 4K 转码、7-Zip 等。只有在 Gem5 中,3D V-Cache 才对性能产生了显着影响。其余的则乏善可陈,几乎不引人注意,大约 5% 的性能优势有利于 3D V-Cache 芯片。
Chips and Cheese 的初步结果表明,3D V-Cache 的影响并不像 AMD 已经预测的那样显着。但是,它需要更深入的测试才能通过判断。此外,我们不能忘记这是 AMD EYPC 服务器处理器上的 3D V-Cache,因此 3D V-Cache 在其消费者对应产品上的行为可能会有所不同。
一方面,7V73X 是一个拥有 64 个核心的怪物芯片,因此该芯片对热量和功率输出很敏感,如果需要,它会迅速限制 CPU 核心。它是通过添加缓存来调整的,对 CPU 增加了更多的功率和散热要求。
另一个是服务器工作负载,由于其性质,传统上它的计算量比延迟敏感度更高。3D V-Cache 只有在内核不是瓶颈并且不运行需要大量时间来处理的线程时才会被证明是有用的。
在消费领域,我们看到芯片的内核数量大大减少,这降低了功率要求,并允许内核在时钟速度偏差较小的情况下伸展它们的腿。强大的冷却系统和主板包含强大的供电解决方案,其空间远大于 CPU 在 PC DIY 空间中所需的空间,这不是问题。
消费场景中的应用的计算密集度通常要低得多,这使得缓存延迟发挥了更关键的作用。这在视频游戏中是非常正确的,其中 CPU 很少加载到 100%,但是具有较低的延迟意味着预渲染帧可以更快地传输到 GPU,减少输入延迟并提高帧速率。
参考链接:
https://www.tomshardware.com/news/amd-3d-v-cache-benchmarks-mixed-results-milan-x-cpus
https://chipsandcheese.com/2022/01/21/deep-diving-zen-3-v-cache/