解析维基百科.bz2转储

时间:2017-11-16 04:33:26

标签: mediawiki data-mining wiki

我已经以.bz2格式下载了压缩的维基百科语料库。有没有办法在不必使用API​​的情况下搜索关键字的大量数据?我需要在服务器上上传整个数据库并搜索它以进行数据挖掘。

1 个答案:

答案 0 :(得分:0)

显然,bzcat / bzgrep最接近"没有使用API​​"。

但在某些时候,您会想要考虑更快搜索的搜索API。