使用nltk进行单词分词需要花费大量时间处理大型(500mb)文本

时间:2019-04-22 05:15:39

标签: python-3.x nlp nltk tokenize

我正在使用nltk软件包进行单词标记(用于NLP应用程序,基本上用于检测令人反感的推文或文本)

文本数据大小约为500mb。有什么方法可以加快处理速度。

以下是代码:word_list = nltk.word_tokenize(corpus)

这里的语料库是我的文本数据,大小为500mb。它需要一个多小时,但仍未完成。

请帮助。

0 个答案:

没有答案