标签: java full-text-search mediawiki wikipedia
我有兴趣搜索包含来自维基百科转储的一对单词的特定句子。一种方法是在提取转储XML之后遍历所有文档。有没有更好的解决方案?
答案 0 :(得分:1)
我建议反向索引内容。你可以使用Lucene,Elastic Search,Solr等。
以下是使用Lucene索引的示例:Wikipedia index using lucene