使用Gensim和提供的数据集“ wiki-english-20171001”创建TF-IDF模型

时间:2018-09-12 09:57:23

标签: python dataset gensim tf-idf mediawiki-api

我很难实现似乎很简单的事情。

我使用了该代码,并且在加载“ test8”数据集(30MB)时有效,该数据集是维基百科的一个小样本。然后,我应用第一个语料库文档,对其进行排序并获取索引。之后,我想打印例如前15个频率最高的单词。:

str.replace("'", "\"")

此代码起初可以很好地测试所有内容,这很好,但是我想升级,因此遇到了一个官方的Wikipedia转储数据集,名为“ wiki-english-20171001”,它的大小为6.5 GB。因此,当尝试替换

pageview 1 -> contentGroup A -> custom event -> pageview 2

语料库似乎正常创建,但是当我尝试保存模型或重新运行验证代码时,下面的每个变量都是空的, 有什么想法吗 ? 预先感谢

0 个答案:

没有答案