python-3.x - 使用nltk进行单词分词需要花费大量时间处理大型（500mb）文本 - Thinbug

使用nltk进行单词分词需要花费大量时间处理大型（500mb）文本

时间：2019-04-22 05:15:39

标签： python-3.x nlp nltk tokenize

我正在使用nltk软件包进行单词标记（用于NLP应用程序，基本上用于检测令人反感的推文或文本）

文本数据大小约为500mb。有什么方法可以加快处理速度。

以下是代码：word_list = nltk.word_tokenize（corpus）

这里的语料库是我的文本数据，大小为500mb。它需要一个多小时，但仍未完成。

请帮助。

0 个答案:

没有答案