从java中的Wikipedia转储中搜索文本的最佳方法是什么?

时间:2017-12-26 17:45:13

标签: java full-text-search mediawiki wikipedia

我有兴趣搜索包含来自维基百科转储的一对单词的特定句子。一种方法是在提取转储XML之后遍历所有文档。有没有更好的解决方案?

1 个答案:

答案 0 :(得分:1)

我建议反向索引内容。你可以使用Lucene,Elastic Search,Solr等。

以下是使用Lucene索引的示例:Wikipedia index using lucene