导读:缓存到底是什么?
从廉价笔记本电脑到价值一百万美元的服务器,任何一台计算机中CPU都有一个叫做“缓存”的东西。当然缓存的级别往往有所不同。
缓存很重要,不然也不会无处不在。但是缓存到底有什么作用,为什么是不同级别的呢?
而且 12 路路组相连到底意味着什么?
缓存到底是什么?
TL 和 DR 很小,但却非常快并位于CPU的逻辑单元旁边。当然,我们需要了解更多有关缓存的信息。
让我们从一个虚构的,神奇的存储系统开始说起。这个存储系统速度极快,可以一次处理无限的数据,并始终保持数据安全。对它来说甚至不存在任何需要远程操作的东西,但是如果的确存在,处理器的设计将更加简单。CPU仅需要具有用于加法,乘法等的逻辑单元,以及用于处理数据传输的系统。这是因为我们的理论存储系统可以立即发送和接收所需的所有编号;没有一个逻辑单元会等待数据处理。
但是,众所周知,实际上不存在任何上述魔术般的存储技术。反之,我们拥有硬盘驱动器或固态驱动器,即使其中最好的驱动器也无法远程处理典型 CPU 所需的所有数据传输。原因在于,现代 CPU 的运行速度非常快 - 它们仅需一个时钟周期即可将两个 64 位整数值相加,而对于以 4 GHz 运行的 CPU,则仅为 0.00000000025 秒或四分之一纳秒。同时,旋转硬盘驱动器仅需数千纳秒即可在内部磁盘上查找数据,更不用说传输数据了,而固态驱动器仍需数十或数百纳秒。
显然,此类驱动器无法内置在处理器中,因此这意味着两者之间将存在物理隔离。这只会增加数据移动的时间,使情况变得更糟。因此,我们需要的是另一个数据存储系统,它位于处理器和主存储之间。它需要比驱动器更快的速度,能够同时处理大量数据传输,并且离处理器更近一些。
如今它已成为现实,叫做RAM。每个计算机系统都有一些用于上述目的的装置。而几乎所有这类存储都是 DRAM(动态随机存取存储器),它能够比任何驱动器更快地传输数据。但是,尽管 DRAM速度极快,但它无法存储尽可能多的数据。
美光公司是 DRAM 的少数制造商之一,其中一些最大的 DDR4 存储器芯片可容纳 32 Gbit 或 4 GB 数据。最大的硬盘驱动器的容量是此容量的 4000 倍。因此,尽管我们提高了数据网络的速度,但仍需要附加系统(硬件和软件),以便确定应将哪些数据保留在有限数量的 DRAM 中,以备 CPU 使用。或者至少可以将 DRAM 置于芯片封装中(称为嵌入式 DRAM)。不过,CPU 很小,所以您不能在其中塞太多。
绝大多数 DRAM 位于处理器旁边(插入主板)。在计算机系统中,它始终是最接近 CPU 的组件。然而,这还是不够快。DRAM 仍需要约 100 纳秒的时间才能找到数据,但至少每秒可以传输数十亿比特。看来我们需要另一级存储器,才能进入处理器单元和 DRAM 之间。
左级输入:SRAM(静态随机存取存储器)。在 DRAM 使用微观电容器以电荷形式存储数据的情况下,SRAM 使用晶体管做同样的事情,并且它们的工作速度几乎与处理器中的逻辑单元一样快(大约比 DRAM 快 10 倍)。
当然,SRAM 有一个缺点,那就是空间。
基于晶体管的内存比 DRAM 占用更多的空间:对于相同大小的 4 GB DDR4 芯片,您将获得不到 100 MB 的 SRAM。但是,由于它是通过与创建 CPU 相同的过程制成的,因此 SRAM 可以直接在处理器内部构建,并尽可能靠近逻辑单元。每增加一个环节,我们就增加了数据移动的速度,从而增加了存储量。我们可以继续添加更多的环节,每个环节更快但简洁。
因此,我们对高速缓存下了一个更为专业的定义:它是全部位于处理器内部的多个 SRAM 块,通过以超快的速度发送和存储数据来确保逻辑单元保持尽可能繁忙。
对这个定义满意吗?很好 - 因为从现在开始它将变得更加复杂!
高速缓存:多层停车场
如上所述,需要缓存是因为没有一种神奇的存储系统可以满足处理器中逻辑单元的数据需求。现代的 CPU 和图形处理器包含许多 SRAM 块,这些 SRAM 块在内部组织成一个层次结构,即一系列高速缓存,其顺序如下:
在上图中,CPU 由黑色虚线矩形表示。ALU(算术逻辑单元)在最左边;这些是为处理器提供动力,处理芯片运算能力的结构。从专业角度来讲,它不是缓存,而最接近 ALU 的内存级别是寄存器(它们组合在一起成为一个寄存器文件)。
其中的每一个都拥有一个数字,例如 64 位整数。该值本身可能是有关某物的一条数据,一条特定指令的代码或某些其他数据的内存地址。
台式机 CPU 中的寄存器文件非常小 - 例如,在 Intel 的 Core i9-9900K 中,每个内核中有两个存储区,而一个整数存储区仅包含 180 个 64 位寄存器。另一个寄存器文件,用于向量(数字的小数组),具有 168 个 256 位条目。因此,每个内核的总寄存器文件略低于 7 kB。相比之下,Nvidia GeForce RTX 2080 Ti 的流式多处理器(GPU 等效于 CPU 内核)中的寄存器文件大小为 256 kB。
寄存器是 SRAM,就像高速缓存一样,但是它们和它们所服务的 ALU 一样快,可以在一个时钟周期内输入和输出数据。但是它们的设计并不是要容纳太多数据(仅存储其中的一部分),这就是为什么附近总是存在一些更大的内存块的原因:这是 1 级缓存。
上图是英特尔 Skylake 台式机处理器设计的单核的放大照片。
可以在最左侧看到 ALU 和寄存器文件(以绿色突出显示)。图片的顶部中间是白色的 1 级数据缓存。它容纳的信息并不多,仅为 32 kB,但是与寄存器一样,它非常靠近逻辑单元,并以与它们相同的速度运行。
另一个白色矩形表示 1 级指令高速缓存,大小也为 32 kB。顾名思义,该命令存储了各种命令,这些命令可以分解成较小的所谓的微操作(通常标记为μop),以供 ALU 执行。它们也有一个缓存,您可以将其归类为 0 级,因为它比 L1 缓存小(仅进行 1,500 次操作)并且更近。
您可能想知道为什么这些 SRAM 块这么小?为什么它们不是一兆字节大小?数据和指令高速缓存一起占用的芯片空间几乎与主要逻辑单元占用的空间相同,因此使其增大将增加芯片的整体尺寸。
但是它们仅保留几 kB 的主要原因是,随着内存容量的增大,查找和检索数据所需的时间也会增加。L1 高速缓存必须达到真正意义上的快,因此必须在大小和速度之间达成折衷 - 最多需要大约 5 个时钟周期(较长的浮点值)才能从该高速缓存中获取数据,以备使用。
但是,如果这是处理器内部唯一的缓存,则其性能将突然崩溃。这就是为什么它们都在内核中内置了另一级内存的原因:二级缓存。这是一个通用的存储块,保存着指令和数据。
它总是比级别 1 大很多:AMD Zen 2 处理器的最大容量为 512 kB,因此可以保持较低级别的缓存的良好供应。但是,这种额外的大小需要付出一定的代价,而与 1 级相比,从此缓存中查找和传输数据大约要花费两倍的时间。
追溯到最初的 Intel Pentium 时代,Level 2 高速缓存是一个单独的芯片,其位于小型插入式电路板上(例如RAMDIMM)或内置在主板中。最终它像奔腾 III 和 AMD K6-III 处理器一样,一直运用于 CPU 封装本身,直到最终被集成到 CPU 裸片中。
由于多核芯片的兴起,这项发展很快之后又有了另一个级别的缓存,以支持其他较低的级别。
上图是 Intel Kaby Lake 芯片,其左中间有 4 个内核(集成 GPU 占据了右侧一半的裸片)。每个内核都有其自己的“专用”组 1 级和 2 级缓存(白色和黄色高亮显示),但它们也带有第三组 SRAM 块。
3 级高速缓存即使直接围绕一个内核也可以与其他内核完全共享 - 每个都可以自由访问另一个 L3 高速缓存的内容。它 内存更大(在 2 到 32 MB 之间),但也慢得多,平均超过 30 个周期(尤其是在内核需要使用相距一定距离的缓存块中的数据时)。
在下面,我们可以看到 AMD Zen 2 架构中的单核:白色的 32 kB 1 级数据和指令缓存,黄色的 512 KB 2 级缓存和红色的 4 MB 巨大块 L3 缓存。
不只是一个数字:
高速缓存两个环节:其一是来提高性能通过加速向逻辑单元的数据传输,其二是保留常用指令和数据的副本。缓存中存储的信息分为两部分:数据本身以及它最初位于系统内存 / 存储中的位置。此地址称为缓存标签。
当 CPU 运行要从内存读取数据或向内存写入数据的操作时,它首先检查 1 级缓存中的变量。如果存在所需的数据(缓存命中),则几乎可以立即访问该数据。当所需标签不在最低缓存级别中时,即缓存未命中。
因此,在 L1 高速缓存中会有一个新标签,其余的处理器体系结构将接管,尽数浏览其他高速缓存级别(如有必要,一直返回主存储驱动器)以查找该标签的数据。但是要在 L1 缓存中为该新标签腾出空间,必须将其他内容始终引导到 L2 中。
这导致了几乎恒定的数据改组,所有这些都只需要几个时钟周期即可实现。实现此目的的唯一方法是在 SRAM 周围构建一个复杂的结构,以处理数据管理。换句话说,如果一个 CPU 内核仅由一个 ALU 组成,则 L1 缓存会简单得多,但是由于 ALU 有数十个(其中许多将处理两个指令线程),因此缓存需要多个连接来保持一切都在进行中。
您可以使用免费程序(例如 CPU-Z)来检查为自己的计算机供电的处理器的缓存信息。但是所有这些信息意味着什么?一个重要的元素是关联的标签集。这与规则有关,这些规则取决于由系统内存中的数据块复制到缓存的方式。
上面的缓存信息适用于 Intel Core i7-9700K。它的 1 级高速缓存每个都分成 64 个小块,称为集合,并且每个小块进一步划分为高速缓存行(大小为 64 字节)。集相关意味着将来自系统内存的数据块映射到一个特定集合中的高速缓存行上,而不是自由地在任何地方进行映射。
8 向告诉我们,一个块可以与一组中的 8 条缓存行关联。关联性级别越高(即“方式”越多),则当 CPU 搜寻数据时,命中高速缓存的机会就越大,并且减少由高速缓存未命中引起的损失。缺点是它增加了复杂性,增加了功耗,还可能降低性能,因为有更多的缓存行要处理一个数据块。
高速缓存复杂性的另一方面在于如何在各个级别上保留数据。规则是在包含策略中设置的。例如,英特尔酷睿处理器具有完全包含的 L1 + L3 缓存。例如,这意味着第 1 级中的相同数据也可以在第 3 级中。这似乎在浪费宝贵的缓存空间,但是好处是,如果处理器在搜索低级标签时出错,数据就会丢失,而不需要遍历更高的级别来找到它。
在同一处理器中,L2 缓存是非包含性的:存储在其中的任何数据都不会复制到任何其他级别。这样可以节省空间,但确实会导致芯片的存储系统必须搜索 L3 以找到丢失的标签(实际上总会比这个更大一些)。受害者缓存与此类似,但是它们习惯于存储从较低级别推出的信息 - 例如,AMD 的 Zen 2 处理器使用 L3 受害者缓存,该缓存仅存储来自 L2 的数据。
还有其他用于缓存的策略,例如何时将数据写入缓存和主系统内存。这些称为写策略,当今大多数 CPU 使用回写式缓存。这意味着,当将数据写入高速缓存级别时,在使用其副本更新系统内存之前会有一个延迟。在大多数情况下,只要数据保留在高速缓存中,此暂停就会一直运行。只有将其引导后,RAM 才会获取信息。
对于处理器设计者而言,选择高速缓存的数量,类型和策略都是为了平衡对更大处理器能力的需求与增加的复杂性和所需的芯片空间。如果有可能拥有 20 MB,1000 路完全关联的 1 级高速缓存,而芯片又不大的离谱(并消耗相同的功率),那么我们都将拥有配备这种芯片的计算机!
在过去的十年中,当今 CPU 中最低的缓存级别并没有太大变化。但是,级别 3 缓存的大小仍在继续增长。十年前,如果您幸运地拥有一台售价 999 美元的 Intel i7-980X,则可以获得 12 MB 的内存。如今,您只需花一半的钱就能得到 64 MB。
简而言之,缓存是不可或缺的,也是尖端技术的体现之一。我们没有研究过 CPU 和 GPU 中的其他缓存类型(例如转换查找缓冲区或纹理缓存),但是由于它们都遵循我们在此介绍的简单的级别结构和模式,因此听起来可能并不复杂。