我按照此链接中的示例运行以下脚本来处理最新的英文维基百科文章:
https://radimrehurek.com/gensim/wiki.html
$ python -m gensim.scripts.make_wiki
9小时后运行脚本的结果是我现在有.mm和.txt文件。我想训练一个word2vec模型,但所有的例子都是从.bz2文件开始的。
如何使用.mm文件作为输入而不是原始bz2文件训练word2vec模型?以下链接显示了如何训练LDA模型。有人可以分享语法吗?
https://radimrehurek.com/gensim/wiki.html
谢谢!