我正在使用健康数据集。
数据集是关于身体信号(8个要素)的,目标变量是身体失效的温度。 有6种不同的温度或多类。 (目标)
我的数据集具有形状(1500 * 9)-数值数据
我用def non_duplicates(x):
y = 0
for i, j in x:
x1 = (i,j)
for k, l in x:
x2 = (k,l)
if (x1 == x2 and x.index(x1) != x.index(x2)):
y = y + 1
y = y/len(x)
if y == 0:
answer = True
if y > 0:
answer = False
return answer
拟合了数据,但显示出约80%的准确性
但是我需要我的准确性和F1分数进一步提高。
另一方面,我正在调整一些参数以提高准确性。
除随机森林外,我想提出一些建议,哪种模型是解决上述问题的最佳选择。由于我的数据集很小,因此我不确定要选择最佳的ML模型
我考虑过使用RMClassifier
。
请分享您的想法。
答案 0 :(得分:2)
要找到适合您问题的最佳模型,可以使用Scikit-learn的GridSearchCV。使用管道并配置GridSearchCV来试验改变其超参数的不同学习方法。它将为您找到最佳的ML模型。
一组研究人员发现,通过质量和数量数据,不同的ML模型的性能略有不同(使用Scikit-Learn和TensorFlow进行动手机器学习,第一版,第23页)。您还应该花一些精力进行要素工程,以查看是否可以增加要素数量。您可以从此Titanic solution
中了解一些想法