应用错误收集

索引属性文件

时间：2009-06-23 10:06:49

标签： java indexing lucene

我需要索引大量的Java属性和清单文件。

文件中的数据只是键值对。

我正在考虑使用Lucene。

但是，我不需要任何真正的全文搜索功能，因为数据非常结构化。我只需要搜索属性值的完全匹配，并且属性键始终是已知的。不需要标记化，也没有“默认”字段。唯一属性键的数量可能非常大。

我还应该补充一点，我希望能够将索引完全保存在内存中（在Lucene中将是一个RAMDirectory）。

那么，Lucene（主要是一个全文搜索引擎）仍然是一个很好的匹配，还是其他更合适的东西呢？

更新一个简单的HashMap不会这样做，因为我想找到将属性A定义为值B的文件。它至少需要一个嵌套的HashMap来保存三元组（Key，Value，Filename）。

4 个答案:

答案 0 :(得分：2)

是的，每个键带有非标记化字段的Lucene索引可以解决这个问题。这也有点过分，某些地图结构可能足以满足您的描述。

在这里使用Lucene的主要好处是它将细节抽象为一个相当简单的API。

答案 1 :(得分：0)

我将从一个简单的HashMap开始，如果你遇到内存问题，那么转向像Lucene这样更复杂的东西。你会对HashMap的效率感到惊讶。

如果你想开始真的很简单，只需使用Properties对象本身 - 它就是HashTable的一个实例（参见HashMap vs HashTable）。您可以轻松使用load(Inputstream)将多个属性文件加载到一个简单对象中，然后如果您决定尝试使用HashMap，请使用new HashMap(propertiesObject)切换它。

答案 2 :(得分：0)

如果您不需要全文搜索，并且只想表示一个大的键值映射，那么我认为Lucene是不合适的。

我建议使用像EhCache这样的东西，它允许你在RAM中容纳大量数据，但是如果它变得太大，可以将其转换为磁盘文件。

答案 3 :(得分：0)

看一下jdbm - 它是一个轻量级的开源对象数据库，它有一个快速的B + Tree实现，应该适合你。如果您不需要高可靠性，则可以关闭数据库的日志部分（这会使插入更快，如果在写入过程中出现电源故障，则存在损坏数据库的风险）。

我们已经在几个生产项目中使用jdbm 4年或5年了，现在有一些非常非常大的数据集。

但是，如果你可以将整个索引保存在内存中，那么你可能最好使用TreeMap（如果你还需要进行反向索引，可以使用多个TreeMaps），如果你需要保存到磁盘，只需序列化它