我正在尝试对包含离散和连续特征的示例进行分类。此外,该示例表示稀疏数据,因此即使系统可能已经训练了100个特征,该示例可能只有12个。
用于实现此目的的最佳分类器算法是什么?我一直在关注贝叶斯,Maxent,决策树和KNN,但我不确定是否符合这个法案。我发现最大的问题是大多数实现都不支持稀疏数据集和离散和连续特征。任何人都可以推荐符合这些标准的算法和实现(最好是Python)吗?
到目前为止我看过的图书馆包括:
答案 0 :(得分:2)
Support vector machines? libsvm可以在Python中使用,速度非常快。
处理稀疏矢量输入,并且不介意某些特征是连续的,其他特征只是-1 / + 1。 (如果你有一个n路离散特征,标准的做法是将它扩展为n个二进制特征。)
答案 1 :(得分:2)
Weka(Java)满足您的所有要求:
查看此Pentaho wiki以获取文档,指南,视频教程等链接列表......
答案 2 :(得分:2)
scikit-learn,Python机器学习模块支持稀疏数据Stochastic Gradient Descent和Support Vector machines。