NLTK的朴素贝叶斯分类器适用于商业应用吗?

时间:2011-09-23 16:04:51

标签: machine-learning nlp nltk

我需要训练一个朴素的贝叶斯分类器在两个由大约组成的语料库中。每个15,000令牌。我正在使用带有二进制标签的基本词语特征提取器,我想知道NLTK是否足够强大以处理所有这些数据而不会显着减慢运行时间,如果这样的应用程序要获得许多用户。该程序基本上是对来自可能数千个用户的常规文本消息流进行分类。是否有其他机器学习包,如果不合适,你建议与NLTK集成?

1 个答案:

答案 0 :(得分:3)

你的语料库不是很大,所以NLTK应该做的。但是,我不会一般地推荐它,它在某些地方非常慢和有缺陷。 Weka是一个更强大的工具,但事实上它可以做得更多,这使得它更难理解。如果您打算使用Naive Bayes,那么自己编写代码可能会最快。

编辑(很久以后):

试试scikit-learn,它非常易于使用。