分类时间量

时间:2014-02-12 08:56:27

标签: python memory-management classification nltk

我正在尝试使用nltk和python运行分类器,朴素的贝叶斯,超过160万条推文。

请有人告诉我这是否是一件愚蠢的事情,因为到目前为止这个过程大约需要12个小时,并且目前正在使用3.2 gb的内存。

这只是一个等待游戏,受到处理能力有多好或有更有效的做事方式的影响?

1 个答案:

答案 0 :(得分:1)

您的数据集非常大,因此您应该期望长时间运行和内存消耗。如果没有更多信息,很难判断这是否合理。

然而,您可以尝试使用scikit-learn而不是nltk基本分类器中的一些分类器,那里有许多有效的选项 - K-最近邻,线性回归等等,以及朴素贝叶斯分类器的替代实现。我用这些方法对文本进行分类有了更好的成功。

here是指向使用基于nltk的数据集的包装器的链接。希望这会有所帮助..