nltk标记一个175 MB的文件

时间:2012-09-26 21:23:24

标签: python nlp nltk

nltk是否有一些用于写出标记化文本的序列化格式?我有一个175mb的文本文件并将其放入nltk.Text对象需要4分钟(在macbook视网膜上 - 即最先进的处理器,8 GB的RAM和SSD)。从磁盘加载原始文件几乎是即时的。

完成工作的功能如下:

def _load_all_text(self):
    if not self._text_loaded:
        file = open("all_posts","r")
        self._text = file.read()
        self._text_loaded = True

def nltk_text(self):
    self._load_all_text()
    return nltk.Text(nltk.word_tokenize(self._text))

我无法相信它需要4分钟才能完成,我想这是因为python垃圾收集器和列表对象,nltk构建在其上。我不太了解酸洗,会腌制清单做伎俩( - 即,有问题的清单是word_tokenise的结果)?

0 个答案:

没有答案