我已经在两台计算机上安装了NLTK库,其中一台工作得相当好(它在大约1分钟内处理了大约1000个句子),而在我的另一台计算机上则需要1分钟才能完成10句话。
说我的第二台电脑更快,所以它与我的第二台电脑无关。
这是我安装它的方式:
pip install nltk
然后,我运行python
在python终端中:import nltk
然后,ntlk.download()
它说我有一些过时的全语料库(我不知道为什么),但似乎只有这一个:PanLex Lite Corpus
,我认为与我没有任何关系问题....而另一个没有安装:Cross-Framework and Cross-Domain Parser Evaluation Shared Task
。我不知道是否可以做些什么......
这些是我正在使用的模块:
from nltk import pos_tag
from nltk import word_tokenize
from nltk.stem.wordnet import WordNetLemmatizer
他们的工作非常慢......
有谁知道为什么并知道如何解决它?
答案 0 :(得分:4)
WordNetLemmatizer可能是罪魁祸首。 Wordnet需要从几个文件中读取才能工作。有许多文件访问操作系统级别的东西可能会妨碍性能。考虑使用另一个变形器,查看慢速计算机的硬盘驱动器是否有故障或尝试对其进行碎片整理(如果在Windows上)