如何加载维基百科转储?

时间:2017-10-24 18:33:28

标签: python gensim

我已经下载了维基百科文件转储(13.40 GB)。它以enwiki-latest-pages-articles.xml.bz2

格式下载

如何在Python&中加载文件然后将文章转换为纯文本文件以便在其上执行LDA?

遵循了来自https://radimrehurek.com/gensim/wiki.html的说明,但未提及加载到Python中的数据。

1 个答案:

答案 0 :(得分:0)

运行以下代码:

python -m gensim.scripts.make_wiki filepath

其中filepath是enwiki-latest-pages-articles.xml.bz2的文件路径。

[来自gensim: Experiments on the English Wikipedia& 基于@Holjer Just's评论]