哪种(ML / DL)模型最适合较小数据集的多类分类?

时间:2020-02-14 16:12:45

标签: python machine-learning deep-learning random-forest boosting

我正在使用健康数据集。

数据集是关于身体信号(8个要素)的,目标变量是身体失效的温度。 有6种不同的温度或多类。 (目标)

我的数据集具有形状(1500 * 9)-数值数据

我用def non_duplicates(x): y = 0 for i, j in x: x1 = (i,j) for k, l in x: x2 = (k,l) if (x1 == x2 and x.index(x1) != x.index(x2)): y = y + 1 y = y/len(x) if y == 0: answer = True if y > 0: answer = False return answer 拟合了数据,但显示出约80%的准确性 但是我需要我的准确性和F1分数进一步提高。 另一方面,我正在调整一些参数以提高准确性。

除随机森林外,我想提出一些建议,哪种模型是解决上述问题的最佳选择。由于我的数据集很小,因此我不确定要选择最佳的ML模型

我考虑过使用RMClassifier。 请分享您的想法。

1 个答案:

答案 0 :(得分:2)

要找到适合您问题的最佳模型,可以使用Scikit-learn的GridSearchCV。使用管道并配置GridSearchCV来试验改变其超参数的不同学习方法。它将为您找到最佳的ML模型。

一组研究人员发现,通过质量和数量数据,不同的ML模型的性能略有不同(使用Scikit-Learn和TensorFlow进行动手机器学习,第一版,第23页)。您还应该花一些精力进行要素工程,以查看是否可以增加要素数量。您可以从此Titanic solution

中了解一些想法