应用错误收集

nltk是否有一些用于写出标记化文本的序列化格式？我有一个175mb的文本文件并将其放入nltk.Text对象需要4分钟（在macbook视网膜上 - 即最先进的处理器，8 GB的RAM和SSD）。从磁盘加载原始文件几乎是即时的。

完成工作的功能如下：

def _load_all_text(self):
    if not self._text_loaded:
        file = open("all_posts","r")
        self._text = file.read()
        self._text_loaded = True

def nltk_text(self):
    self._load_all_text()
    return nltk.Text(nltk.word_tokenize(self._text))

我无法相信它需要4分钟才能完成，我想这是因为python垃圾收集器和列表对象，nltk构建在其上。我不太了解酸洗，会腌制清单做伎俩（ - 即，有问题的清单是word_tokenise的结果）？

nltk标记一个175 MB的文件

0 个答案: