以下是要求:
数据大小:最大10 GB 行:几十亿左右 索引应该很快 搜索应该在0毫秒以下[好吧,开玩笑......笑......但保持尽可能低]
在今天的世界里,我/我该怎么做?
编辑: 我在lucene上做了一些时间,并且为了索引1.8gb数据,花了5分钟 搜索非常快,除非我做 a * 。 a *需要400~500 ms 我最担心的是索引,这需要花费很多时间和资源!!
答案 0 :(得分:2)
除了Lucene之外,我没有其他任何经验 - 它几乎是默认的索引解决方案,所以不要认为你可能会出错。
10GB并不是很多数据。您将能够非常快速地对其进行重新索引 - 或者将其保留在SSD上以获得更高的速度。当然,将整个索引保存在RAM(Lucene支持)中,以实现超快速查找。
答案 1 :(得分:0)
请查看Lucene wiki以获取有关improving Lucene indexing speed的提示。这很简洁。一般来说,Lucene非常快(它用于实时搜索。)这些提示可以很方便地判断你是否错过了“显而易见”的东西。
答案 2 :(得分:0)
我最担心的是索引,即 采取loooonnnnggg时间,很多 资源!!
看看 Lusql ,我们曾经使用过一次,来自mysql的FWIW 100 GBdata在一台体面的机器上花了不到一个小时的时间来索引文件系统(NTFS)
现在如果您添加SSD或任何超快速磁盘技术,您可以大大降低它