标签: elasticsearch full-text-search wikipedia information-extraction
我正在尝试在Wikipedia转储上进行一些关系提取。
为了做到这一点,我需要在非常大的XML / JSON文件中搜索模式(15 GB压缩,50 GB未压缩)。
最好的方法是什么?常规的字符串匹配算法?使用类似ElasticSearch的技术?如果是这样,怎么样?