如何缓存意识到B +树存储?

时间:2015-04-25 21:59:33

标签: database caching memory operating-system b-tree

我是数据库新手,希望实现缓存意识的B +树。大量阅读建议将节点和叶子存储为连续内存。这是否假设在创建B +树时,节点和叶子存储在堆中,然后通过读写操作复制到磁盘中?缓存意识的B +树是否告诉操作系统为其提供一组连续的物理页面?我认为答案是没有b / c应用程序不应该知道物理页面是如何分配的,连续内存只是指主存储器页面?

1 个答案:

答案 0 :(得分:2)

“缓存意识”位指的是页面布局的特殊规则,它试图最大化CPU的第一级数据缓存的利用率,通常针对特定的缓存行大小(例如64字节)进行优化。

一种标准技术(独立于缓存行大小)是在间接向量中使用偏移值编码,通常与“穷人的规范化密钥”组合(例如,通常从第一个字节开始的两个或四个字节的密钥材料不与前任共享)。这减少了访问间接向量之外的数据的必要性 - 即保存在页面上其他位置的堆中的实际密钥数据,并且可以仅使用增强中包含的数据来完成相当多的查询(失败的查找)间接向量。这最大化了缓存利用率并最大限度地减少了颠簸。

其他方案将间接向量的元素组成一个mini-btree,其“页面大小”等于缓存行大小。

另一种方案将间接向量划分为一个(或极少数)高速缓存行的子块,其中前缀截断(在某些论文中称为“前压缩”)仅在这些子块中使用但不跨越不同的块。块'leader'之间的二进制搜索用于识别目标块,然后以前缀截断键序列的典型方式线性扫描。

此方案的一种变体将块前导符存储在迷你索引中,并将顺序子块保留在其他位置,以进一步提高缓存利用率。毋庸置疑,页内空间管理绝对是一场噩梦。

许多其他变体是可能的,但出版物似乎仅限于试图证明学术要点的学术论文,以及罕见的重要数据库系统使用的页面布局。

即使对于与前缀截断相关的基本比较基本内容,我能找到的唯一可靠的网络参考可以追溯到1990年:

DDJ December 1990 - Supercharging Sequential Searches

有关btree的CPU缓存问题的概述:

底层存储的分页特性的意识 - 以及寻道,页面读/写和批量读/写的不同特征 - 是一种不同的野兽,但也很重要。通常会产生令人惊讶的创新设计。一个例子是Berkeley DB的Java版本,该版本仅将其日志文件保留到磁盘,并在启动时从日志中重建内存中的btree。