结构化和非结构化索引 - Lucene和Hbase

时间:2011-08-01 07:08:36

标签: lucene indexing hbase

我有一组需要索引的200M文档。每个文档都有一个自由文本和一组额外的稀疏元数据信息(100多列)。

用于自由文本索引的正确工具似乎是Lucene,而用于结构化稀疏元数据的正确工具是HBase。

我需要查询数据并在自由文本搜索结果和结构化数据结果之间加入(例如,在其文本中获得所有具有短语“早安”的书籍于1980年首次发布)。

我应该查看哪些工具/机制来加入结构化和未经检查的查询? 结果可能包括数百万条记录(加入前后)

由于 萨尔

2 个答案:

答案 0 :(得分:3)

除了hbase上的lucene之外,还会想到一些事情:

1)Solr / Lucene可以存储多个字段,每个字段可以有不同的类型。因此,您的日期范围示例完全在Solr内。

2)如果您正在讨论需要群集的真正庞大的数据集,请查看ElasticSearch:http://www.elasticsearch.org/

3)Lily尝试回答您的确切问题{​​{3}}

答案 1 :(得分:2)

看起来HBase也想要一些Lucene动作:https://issues.apache.org/jira/browse/HBASE-3529