应用错误收集

时间：2011-08-01 07:08:36

标签： lucene indexing hbase

我有一组需要索引的200M文档。每个文档都有一个自由文本和一组额外的稀疏元数据信息（100多列）。

用于自由文本索引的正确工具似乎是Lucene，而用于结构化稀疏元数据的正确工具是HBase。

我需要查询数据并在自由文本搜索结果和结构化数据结果之间加入（例如，在其文本中获得所有具有短语“早安”的书籍于1980年首次发布）。

我应该查看哪些工具/机制来加入结构化和未经检查的查询？结果可能包括数百万条记录（加入前后）

由于萨尔

答案 0 :(得分：3)

除了hbase上的lucene之外，还会想到一些事情：

1）Solr / Lucene可以存储多个字段，每个字段可以有不同的类型。因此，您的日期范围示例完全在Solr内。

2）如果您正在讨论需要群集的真正庞大的数据集，请查看ElasticSearch：http://www.elasticsearch.org/

3）Lily尝试回答您的确切问题{{3}}

答案 1 :(得分：2)