稀疏数据上的离散和连续分类器

时间:2010-03-23 14:00:42

标签: java python machine-learning classification

我正在尝试对包含离散和连续特征的示例进行分类。此外,该示例表示稀疏数据,因此即使系统可能已经训练了100个特征,该示例可能只有12个。

用于实现此目的的最佳分类器算法是什么?我一直在关注贝叶斯,Maxent,决策树和KNN,但我不确定是否符合这个法案。我发现最大的问题是大多数实现都不支持稀疏数据集离散和连续特征。任何人都可以推荐符合这些标准的算法和实现(最好是Python)吗?

到目前为止我看过的图书馆包括:

  1. Orange(主要是学术性的。实施效率不高或实用。)
  2. NLTK(也是学术性的,虽然有很好的Maxent实现,但不能处理连续的功能。)
  3. Weka(仍在研究这个。似乎支持广泛的算法,但文档很差,因此不清楚每个实现支持的内容。)

3 个答案:

答案 0 :(得分:2)

Support vector machineslibsvm可以在Python中使用,速度非常快。

处理稀疏矢量输入,并且不介意某些特征是连续的,其他特征只是-1 / + 1。 (如果你有一个n路离散特征,标准的做法是将它扩展为n个二进制特征。)

答案 1 :(得分:2)

Weka(Java)满足您的所有要求:

查看此Pentaho wiki以获取文档,指南,视频教程等链接列表......

答案 2 :(得分:2)

scikit-learn,Python机器学习模块支持稀疏数据Stochastic Gradient DescentSupport Vector machines