nltk是否有一些用于写出标记化文本的序列化格式?我有一个175mb的文本文件并将其放入nltk.Text
对象需要4分钟(在macbook视网膜上 - 即最先进的处理器,8 GB的RAM和SSD)。从磁盘加载原始文件几乎是即时的。
完成工作的功能如下:
def _load_all_text(self):
if not self._text_loaded:
file = open("all_posts","r")
self._text = file.read()
self._text_loaded = True
def nltk_text(self):
self._load_all_text()
return nltk.Text(nltk.word_tokenize(self._text))
我无法相信它需要4分钟才能完成,我想这是因为python垃圾收集器和列表对象,nltk构建在其上。我不太了解酸洗,会腌制清单做伎俩( - 即,有问题的清单是word_tokenise
的结果)?