python - 分类时间量 - Thinbug

分类时间量

时间：2014-02-12 08:56:27

标签： python memory-management classification nltk

我正在尝试使用nltk和python运行分类器，朴素的贝叶斯，超过160万条推文。

请有人告诉我这是否是一件愚蠢的事情，因为到目前为止这个过程大约需要12个小时，并且目前正在使用3.2 gb的内存。

这只是一个等待游戏，受到处理能力有多好或有更有效的做事方式的影响？

1 个答案:

答案 0 :(得分：1)

您的数据集非常大，因此您应该期望长时间运行和内存消耗。如果没有更多信息，很难判断这是否合理。

然而，您可以尝试使用scikit-learn而不是nltk基本分类器中的一些分类器，那里有许多有效的选项 - K-最近邻，线性回归等等，以及朴素贝叶斯分类器的替代实现。我用这些方法对文本进行分类有了更好的成功。

here是指向使用基于nltk的数据集的包装器的链接。希望这会有所帮助..