我已经下载了维基百科文件转储(13.40 GB)。它以enwiki-latest-pages-articles.xml.bz2
。
如何在Python&中加载文件然后将文章转换为纯文本文件以便在其上执行LDA?
遵循了来自https://radimrehurek.com/gensim/wiki.html的说明,但未提及加载到Python中的数据。
答案 0 :(得分:0)
运行以下代码:
python -m gensim.scripts.make_wiki filepath
其中filepath是enwiki-latest-pages-articles.xml.bz2
的文件路径。
[来自gensim: Experiments on the English Wikipedia& 基于@Holjer Just's评论]