标签: python-3.x nlp nltk tokenize
我正在使用nltk软件包进行单词标记(用于NLP应用程序,基本上用于检测令人反感的推文或文本)
文本数据大小约为500mb。有什么方法可以加快处理速度。
以下是代码:word_list = nltk.word_tokenize(corpus)
这里的语料库是我的文本数据,大小为500mb。它需要一个多小时,但仍未完成。
请帮助。