应用错误收集

C中关联集合的简单空间高效实现？

时间：2011-03-06 20:37:07

标签： c data-structures memory-management hashtable associative-array

我正在寻找一个关联集合，它支持在至少O（Log（N））时间内按键（删除不重要）检索和插入值，并且在代码方面具有非常低的内存开销大小和运行时内存消耗。

我这样做是为了用C编写的小型嵌入式应用程序，所以我试图最小化所需的代码量和消耗的内存量。

如果它不是用C ++编写的话Google sparse hash data structure是可能的，并且更简单。

我所知道的大多数哈希表实现都使用了相当多的额外空间，需要的空间至少是键值总数的两倍，否则每个条目需要额外的指针（例如桶链式哈希算法）。在我的结构中，键值对只是两个指针。

目前我正在使用已排序的键/值对数组，但插入的是O（N）。我不禁想到必须有一种聪明的方法来改善插入的摊销运行时间，例如通过分组插入，但我没有取得任何成功。

我认为这在某些圈子里一定是一个比较着名的问题，所以为了使这不太主观，我想知道上述问题最常见的解决办法是什么？

[编辑：

可能相关的一些其他信息：

键是整数
值的数量可能很小，从1到2 ^ 32。
使用模式无法预测。
我希望尽可能降低内存消耗（例如，所需内存大小加倍，不理想）

3 个答案:

答案 0 :(得分：2)

查看binary search tree并克服最坏情况（搜索和插入都有O（n）复杂度）使用balanced tree。

答案 1 :(得分：1)

您可以使用不使用链接的哈希表，例如线性探测或布谷鸟哈希方案。支持实现只是一个数组，加载因子大约为0.5，开销不会太差，实现复杂性（至少对于线性或二次探测）并不算太多。

如果您想要一个良好的二进制搜索树实现，它具有出色的性能保证并且不易编码，请考虑查看splay树。它们保证分摊 O（lg n）查找，并且每个节点只需要两个指针。平衡步骤也比大多数平衡BST更容易。

答案 2 :(得分：1)

我可能会使用带有双重哈希的哈希表来解决冲突。一般的想法是哈希你的原始值，如果碰撞做了第二个哈希，给出一个步骤值，你将用于遍历数组来找到放置值的位置。这样可以很好地利用内存，因为它没有指针开销，并且在比线性探测更高的负载因子下保持合理的效率。

编辑：如果你想要改变现在正在做的事情，一种可能性是处理集群中的插入：保持一个排序的数组，以及一个单独的新插入集合。当新插入的集合变得太大时，将这些项合并到主集合中。

对于二级收藏，您有几个选择。您可以使用未排序的数组，并进行线性搜索 - 并且只是限制其大小，所以（比如）log（M），其中M是主数组的大小。在这种情况下，整体搜索仍为O（log N），不会产生任何内存开销，并且可以非常快速地保留大多数插入。当您将集合合并在一起时，您（通常）希望对辅助集合进行排序，然后与主集合合并。这使您可以在次要集合中的项目数上分摊线性合并。

或者，您可以将树用于辅助集合。这意味着新插入的项目会为指针使用额外的存储空间，但（再次）保持较小的大小会限制开销。