应用错误收集

在之前的一些帖子中，我提出了一些关于java中自定义哈希映射/表编码的问题。现在因为我无法解决它而且可能忘记正确提及我真正想要的东西，我总结所有这些以使其清晰和准确。

我要做的是：

我正在尝试为我们的服务器编写代码，我必须通过URL找到用户访问类型。

现在，我有1110万个网址（约）。

那么，我们做了什么，

1）将数据库划分为1.1亿个Url的10个部分。 2）使用并行数组构建HashMap，其键是URL的一部分（表示为LONG），值是URL的其他部分（表示为INT） - 键可以有多个值。

3）然后在系统启动时，每天在HashMap中搜索一些其他URL（一天内保存的数百万个URL）。

你有什么尝试：

1）我尝试了很多NoSQL数据库，但是我们发现它们不太适合我们的目的。

2）我为此目的构建了custom hashmap（使用两个并行数组）。

那么，问题是什么：

当系统启动时，我们必须加载每个数据库的哈希表，并搜索数百万个网址：

现在，问题是，

1）虽然HashTable性能非常好，但是在加载HashTable时代码需要更多时间（我们使用文件通道和内存映射缓冲区加载它需要20秒来加载HashTable --220万条入口 - 作为加载因子是0.5，we found it most faster）

所以，我们花时间:( HashTable Load + HashTable Search）* DB =（5 + 20）* 10 = 250秒。对我们来说这是非常昂贵的，并且大部分时间（250秒中的200秒）都用于加载哈希表。

你有没有想过其他方式：

一种方法可以是：

不用担心加载和存储，并使用内存映射缓冲区将缓存留给操作系统。但是，由于我必须搜索数百万个密钥，因此它的性能会比上述情况更差。

由于我们发现HashTable性能不错但加载时间很长，我们认为会以另一种方式切断它：

1）创建一个大小为Integer_MAX（my own custom linked list）的链接列表数组。

2）将值（int）插入到编号为密钥编号的链接列表中（我们将密钥大小减小为INT）。

3）因此，我们只需要将链接列表存储到磁盘中。

现在，问题是，创建如此数量的链接列表需要花费大量时间，如果数据分布不均，则创建如此大量的链接列表没有任何意义。

那么，您的要求是什么：

仅仅是我的要求：

1）具有多个值插入和搜索的键。寻找不错的搜索性能。 2）快速加载（特别）到内存中。

（键是64位INT，值是32位INT，一个键最多可以有2-3个值。我们也可以使我们的键32位但会产生更多的冲突，但如果我们可以制造，我们可以接受它更好。）

任何人都可以帮助我，如何解决这个或任何评论如何解决这个问题？

感谢。

注意：

1）根据之前的Stack Overflow建议，无法预读磁盘缓存数据，因为系统启动时我们的应用程序将开始工作，并在系统启动的第二天开始工作。

2）我们还没有发现NoSQL db的扩展性很好，因为我们的要求很简单（意味着只插入散列表键值，加载和搜索（检索值））。

3）由于我们的应用程序是小型项目的一部分，并且应用于小型校园，我认为没有人会为我购买SSD磁盘。这是我的局限。

4）我们也使用Guava / Trove，但他们也无法在16 GB中存储如此大量的数据（我们使用的是32 GB的ubuntu服务器。）

在我看来（如果我理解你的问题正确），你试图以一种错综复杂的方式解决问题。
我的意思是你试图预加载的数据开始时很大（比方说2.2亿* 64~14GB）。你正试图为此记忆地图等。
我认为这是通过在不同机器中分配负载来解决的典型问题。即您应该尝试找出已加载地图特定部分的相应计算机的索引，而不是尝试找到链接列表索引，并从那里获取该计算机的值（每台计算机都加载了此数据库的一部分）地图，你从地图的适当部分获得数据，即每次机器。）也许我离开这里，但我也怀疑你使用的是32位机器因此，如果您必须继续使用单机架构，并且在经济上不可能改进您的硬件（64位机器以及更多RAM或SSD，正如您所指出的那样），我认为您无法做出任何显着的改进。

Java - 自定义哈希映射/表一些点

3 个答案: