Question

据我所知，处理器通过缓存线将数据带入缓存，例如，在我的Atom处理器上，无论读取的实际数据大小如何，一次都会带来大约64个字节。

我的问题是：

想象一下，你需要从内存中读取一个字节，这64个字节将被带入缓存？

我可以看到的两种可能性是，64字节从感兴趣的字节下方最接近的64字节边界开始，或者64字节以某种预定方式在字节周围扩展（例如，一半，一半）以上，或以上所有）。

这是什么？

Answer 1

如果包含您正在加载的字节或单词的缓存行尚未存在于缓存中，则CPU将请求从缓存行边界开始的64个字节（您需要的最大地址为多个地址） 64）。

现代PC内存模块一次传输64位（8字节）in a burst of eight transfers，因此一个命令会触发从内存中读取或写入完整缓存行。（DDR1 / 2/3/4 SDRAM突发传输大小可配置高达64B; CPU将选择突发传输大小以匹配其高速缓存行大小，但64B很常见）

根据经验，如果处理器无法预测存储器访问（并预取存储器），则检索过程可能需要约90纳秒，或约250个时钟周期（从CPU知道地址到CPU接收数据）。

相比之下，L1缓存中的命中具有3或4个周期的负载使用延迟，并且存储重新加载在现代x86 CPU上具有4或5个周期的存储转发延迟。在其他架构上情况类似。

进一步阅读：Ulrich Drepper的What Every Programmer Should Know About Memory。软件预取建议有点过时了：现代硬件预取器更智能，超线程比P4天好（因此预取线程通常是浪费）。此外，x86标记wiki还有许多针对该体系结构的性能链接。

Answer 2

如果高速缓存行是64字节宽，则它们对应于从可被64整除的地址开始的存储器块。任何地址的最低6位是高速缓存行的偏移量。

因此，对于任何给定的字节，可以通过清除地址中最不重要的六位来找到必须获取的高速缓存行，这对应于向下舍入到可被64整除的最近地址。

虽然这是由硬件完成的，但我们可以使用一些参考C宏定义来显示计算：

#define CACHE_BLOCK_BITS 6
#define CACHE_BLOCK_SIZE (1U << CACHE_BLOCK_BITS)  /* 64 */
#define CACHE_BLOCK_MASK (CACHE_BLOCK_SIZE - 1)    /* 63, 0x3F */

/* Which byte offset in its cache block does this address reference? */
#define CACHE_BLOCK_OFFSET(ADDR) ((ADDR) & CACHE_BLOCK_MASK)

/* Address of 64 byte block brought into the cache when ADDR accessed */
#define CACHE_BLOCK_ALIGNED_ADDR(ADDR) ((ADDR) & ~CACHE_BLOCK_MASK)

Answer 3

首先，主内存访问非常昂贵。目前，2GHz CPU（最慢的一次）每秒有2G滴答（周期）。 CPU（现在的虚拟核心）可以每次滴答一次从其寄存器中获取一个值。由于虚拟核心由多个处理单元（ALU - 算术逻辑单元，FPU等）组成，因此如果可能，它实际上可以并行处理某些指令。

主存储器的访问成本约为70ns至100ns（DDR4略快）。这个时间基本上是查找L1，L2和L3缓存而不是命中内存（向内存控制器发送命令，将其发送到内存条），等待响应并完成。

100ns意味着大约200个滴答。所以基本上如果一个程序总是错过每个内存访问的缓存，CPU将花费大约99.5％的时间（如果它只读取内存）空闲等待内存。

为了加快速度，有L1，L2，L3缓存。它们使用直接放置在芯片上的存储器，并使用不同种类的晶体管电路来存储给定的位。这需要更多的空间，更多的能量并且比主存储器更昂贵，因为CPU通常使用更先进的技术生产并且L1，L2，L3存储器中的生产故障有机会使CPU变得毫无价值（缺陷）所以大的L1，L2，L3高速缓存会增加错误率，从而降低产量，从而直接降低ROI。因此，在可用的缓存大小方面存在巨大的折衷。

（目前有一个创建更多的L1，L2，L3缓存，以便能够停用某些部分，以减少实际生产缺陷是缓存内存区域整体上造成CPU缺陷的可能性。）

提供时间选择（来源：costs to access caches and memory）

L1缓存：1ns至2ns（2-4个周期）
L2缓存：3ns至5ns（6-10个周期）
L3缓存：12ns至20ns（24-40个周期）
RAM：60ns（120次循环）

由于我们混合了不同的CPU类型，这些只是估计值，但是当获取内存值时我们可能会有一个好主意，我们可能会在某个缓存层中遇到命中或未命中。

因此，缓存基本上可以大大加快内存访问速度（60ns vs. 1ns）。

获取一个值，将其存储在缓存中以便重新读取它对于经常访问的变量是有好处的，但是对于内存复制操作，它仍然会变慢，因为只读取一个值，将值写入某处并且永远不会再次读取值...没有缓存命中，死慢（除此之外可以并行发生，因为我们已经无序执行）。

这个内存副本非常重要，有不同的方法可以加快速度。在早期，内存通常能够复制CPU外部的内存。它由内存控制器直接处理，因此内存复制操作不会污染缓存。

但是除了普通的内存副本之外，其他内存的串行访问也很常见。一个例子是分析一系列信息。拥有一个整数数组并计算和，平均值或平均值甚至更简单的找到某个值（过滤器/搜索）是每次在任何通用CPU上运行的另一个非常重要的算法类。

因此，通过分析内存访问模式，很明显，数据是经常按顺序读取的。如果程序读取的可能性很高索引i的值，程序也将读取值i + 1。该概率略高于同一程序也将读取值i + 2的概率，依此类推。

因此，给定一个内存地址，提前读取并获取其他值是一个好主意。这就是升压模式的原因。

升压模式下的存储器访问意味着发送地址并顺序发送多个值。每发送一个附加值只需要大约10ns（甚至更低）。

另一个问题是地址。发送地址需要时间。为了解决大部分存储器，必须发送大地址。在早期，它意味着地址总线不够大，无法在一个周期内发送地址（勾选），并且需要多个周期才能发送地址，从而增加更多延迟。

例如，64字节的高速缓存行意味着存储器被划分为大小为64字节的不同（非重叠）存储器块。 64字节表示每个块的起始地址具有最低的六个地址位，始终为零。因此，每次发送这六个零位不需要为任意数量的地址总线宽度增加地址空间64次（欢迎效果）。

缓存线解决的另一个问题（除了提前读取和保存/释放地址总线上的六位）是缓存组织的方式。例如，如果高速缓存将被划分为8字节（64位）块（单元），则需要存储该高速缓存单元保持其值的存储器单元的地址。如果地址也是64位，这意味着地址消耗了一半的高速缓存大小，导致开销为100％。

由于缓存行是64字节而CPU可能使用64位 - 6位= 58位（不需要将零位存储得太右）意味着我们可以缓存64位或512位，开销为58位（开销为11％）。实际上存储的地址甚至比这小，但是有状态信息（比如缓存行有效且准确，脏，需要在ram中写回等）。

另一个方面是我们有set-associative缓存。并非每个缓存单元都能够存储某个地址，而只能存储其中的一部分。这使得必要的存储地址位更小，允许并行访问缓存（每个子集可以访问一次，但独立于其他子集）。

尤其是在同步不同虚拟内核之间的缓存/内存访问，每个内核的独立多个处理单元以及最后一个主板上的多个处理器（其中有多达48个处理器以及更多的处理器）之间

这基本上是我们为什么有缓存行的想法。提前读取的好处是非常高的，从缓存行读取单个字节并且再也不读取其余字节的最坏情况非常微小，因为概率很小。

缓存行（64）的大小是较大缓存行之间明智选择的权衡，因此在不久的将来也不可能读取它的最后一个字节，即获取从内存中完成缓存行（并将其写回）以及缓存组织中的开销以及缓存和内存访问的并行化。

Answer 4

处理器可能具有多级缓存（L1，L2，L3），这些缓存在大小和速度上有所不同。

然而，要了解每个缓存的确切内容，您必须研究该特定处理器使用的分支预测器，以及您的程序的指令/数据如何对其起作用。

了解branch predictor，CPU cache和replacement policies。

这不是一件容易的事。如果在一天结束时您只想进行性能测试，则可以使用Cachegrind之类的工具。但是，由于这是模拟，其结果可能会有所不同。

Answer 5

我不能确定每个硬件都不同，但它通常是“64字节从最接近的64字节边界开始”，因为这是一个非常快速和简单的CPU操作。

缓存线如何工作？

5 个答案: