我有一组需要索引的200M文档。每个文档都有一个自由文本和一组额外的稀疏元数据信息(100多列)。
用于自由文本索引的正确工具似乎是Lucene,而用于结构化稀疏元数据的正确工具是HBase。
我需要查询数据并在自由文本搜索结果和结构化数据结果之间加入(例如,在其文本中获得所有具有短语“早安”的书籍于1980年首次发布)。
我应该查看哪些工具/机制来加入结构化和未经检查的查询? 结果可能包括数百万条记录(加入前后)
由于 萨尔
答案 0 :(得分:3)
除了hbase上的lucene之外,还会想到一些事情:
1)Solr / Lucene可以存储多个字段,每个字段可以有不同的类型。因此,您的日期范围示例完全在Solr内。
2)如果您正在讨论需要群集的真正庞大的数据集,请查看ElasticSearch:http://www.elasticsearch.org/
3)Lily尝试回答您的确切问题{{3}}
答案 1 :(得分:2)
看起来HBase也想要一些Lucene动作:https://issues.apache.org/jira/browse/HBASE-3529。