应用错误收集

我很难实现似乎很简单的事情。

我使用了该代码，并且在加载“ test8”数据集（30MB）时有效，该数据集是维基百科的一个小样本。然后，我应用第一个语料库文档，对其进行排序并获取索引。之后，我想打印例如前15个频率最高的单词。：

str.replace("'", "\"")

此代码起初可以很好地测试所有内容，这很好，但是我想升级，因此遇到了一个官方的Wikipedia转储数据集，名为“ wiki-english-20171001”，它的大小为6.5 GB。因此，当尝试替换

pageview 1 -> contentGroup A -> custom event -> pageview 2

语料库似乎正常创建，但是当我尝试保存模型或重新运行验证代码时，下面的每个变量都是空的，有什么想法吗？预先感谢