维基百科转储模式搜索

时间:2018-06-05 11:49:19

标签: elasticsearch full-text-search wikipedia information-extraction

我正在尝试在Wikipedia转储上进行一些关系提取。

为了做到这一点,我需要在非常大的XML / JSON文件中搜索模式(15 GB压缩,50 GB未压缩)。

最好的方法是什么?常规的字符串匹配算法?使用类似ElasticSearch的技术?如果是这样,怎么样?

0 个答案:

没有答案