应用错误收集

维基百科转储模式搜索

时间：2018-06-05 11:49:19

标签： elasticsearch full-text-search wikipedia information-extraction

我正在尝试在Wikipedia转储上进行一些关系提取。

为了做到这一点，我需要在非常大的XML / JSON文件中搜索模式（15 GB压缩，50 GB未压缩）。

最好的方法是什么？常规的字符串匹配算法？使用类似ElasticSearch的技术？如果是这样，怎么样？

0 个答案:

没有答案