如何在特定数据集上选择分类器

时间:2014-07-19 09:51:25

标签: machine-learning

当给定数据集时,通常是由n个特征矩阵组成的m个实例,如何选择最适合数据集的分类器。

4 个答案:

答案 0 :(得分:0)

这就像解决素数的算法一样。并非每个算法都能解决任何问题,这意味着每个问算法。在机器学习中,您可以对一类问题应用不同的算法。

如果矩阵包含实数编号的特征,则可以使用 KNN 算法。或者,如果矩阵将单词作为特征,那么您可以使用朴素贝叶斯分类器,这是文本分类的最佳选择之一。机器学习有很多算法,你可以阅读它们适用于你最适合的问题。希望你明白我说的话。

答案 1 :(得分:0)

我发现了一个有趣但更为一般的地图:

http://scikit-learn.org/stable/tutorial/machine_learning_map/

答案 2 :(得分:0)

如果您有weka,您可以使用实验者并在同一数据集上选择不同的算法来评估不同的模型。

答案 3 :(得分:0)

This project比较了不同典型数据集上的许多不同分类器。

如果您不知道,可以使用这个简单的工具auto-weka来测试您在不同约束条件下选择的所有不同分类器。在使用auto-weka之前,您可能需要使用Weka将数据转换为ARFF,或者只需手动转换(在youtube上有很多教程)。

最佳分类器取决于您的数据(二进制/字符串/实际/标签,模式,分布......),要预测的输出类型(二进制类/多类/演化类/回归值?)和预期的表现(时间,记忆,准确性)。这还取决于您是否要经常更新模型(例如,如果它是流,最好使用在线分类器)。

请注意,最佳分类器可能不是一个,而是一个不同分类器的集合。