我目前正在研究编程相关的问题,我试图制作一个庞大的数据散列图。数据的关键是CharSequence的自定义低内存实现,它实现hashCode()和equals(...),值为是Integer对象。
这个散列表中可能有数百万个条目,我通过将Integer作为文件中的指针指向我想要散列的数据,但是设法大大减少了值的内存使用但问题是密钥可能是数十字节数(平均25个字节)以及密钥需要在HashMap的默认实现中保存在内存中。
我需要一个内存开销较低的hashmap,它可能会将密钥分页到磁盘,或者存储密钥的散列表示。如果密钥本身是哈希值,那么我会担心哈希冲突。
理想情况下,我希望每50MB堆空间能够在地图中存储一百万个条目(密钥中的一个字节数组为25个字节,值部分中为Integer对象)。
是否有人对低内存文件系统支持的地图有经验,这些地图经过优化可以减少密钥的占用空间?
谢谢,
克里斯
答案 0 :(得分:3)
您可以使用Java的哈希映射并编写一个FileKey类,该类采用RandomAccessFile,offset和length,在构造时预先计算哈希值,并通过从文件中读取数据来实现Comparable,仅用于比较。
结合一个简单的MRU缓存,你可以使用另一个键控在同一个键上的hashmap在内存中保留一些键,但是它使用自定义比较器来比较偏移量和长度值(而不是文件数据) )。
答案 1 :(得分:2)
Berkeley DB Java Edition怎么样?它的StoredMap类看起来就像你要找的那样。
答案 2 :(得分:1)
我认为默认的HashSet
并不是一个糟糕的方法 - 自己制作键值对(所以你不必将它们包装在一个额外的对象中)。这样的内存效率非常高;它实际上只需要大约(1 / loadFactor)^(3/2)* 4字节更多的内存在你的密钥对象上+ 4个字节的值。实际上,这应该为每个条目添加8字节的开销。 (如果您事先知道要存储的密钥数量,可以进一步减少这种情况。)