我是数据科学的新人,想寻求模型选择的帮助。
我建立了8个模型来预测薪水与年薪,职位名称和位置。 然后,我尝试通过RMSE比较8个模型。但是最后,我不确定应该选择哪种型号。 (在我看来,我更喜欢使用模型8,因为经过随机森林测试后,结果要比回归更好,然后我使用所有数据集制作了最终版本,但解释系数比回归更困难) 您能帮您选择哪种型号,为什么? 实际上,数据科学家是否会像这样进行处理,或者他们有自动处理的方法?
1 RMSElm1:模型:线性回归,数据:训练80%,测试20%没有任何估算 = 22067.58
2 RMSElm2:模型:线性回归,数据:训练80%,测试20%:估算一些我认为他们给出相同薪水概念的位置 = 22115.64
3 RMSElm3:模型:线性回归+逐步分析,数据:训练80%,测试20%没有任何估算 = 22081.06
4 RMSEdeep1:模型:深度学习(H2O软件包激活=“整流器”,隐藏的c(5,5),历元= 100,),数据:训练80%,测试20%:无任何归因 = 16265.13
5 RMSErf1:模型:随机森林(ntree = 10),数据:训练80%,测试20%无任何归因 = 14669.92
6 RMSErf2:模型:随机森林(ntree = 500),数据:训练80%,测试20%没有任何归因 [1] 14669.92
7 RMSErf3:模型:随机森林(ntree = 10,)数据:K折10没有任何插补 [1] 14440.82
8个RMSErf4模型:随机森林(ntree = 10),数据:所有数据集无任何估算 [1] 13532.74
答案 0 :(得分:0)
在回归问题中, mse 或 rmse 是一种确定模型运行状况的方法。低rmse或mse是首选。因此,选择给出最低mse或rmse值的模型,然后在测试数据上进行尝试。集成方法通常会产生最佳效果。 XGBoost通常在比赛中使用。
在过度拟合的情况下,训练数据的均方根值可能非常低,而测试数据的均方根值却很高。因此,使用交叉验证被认为是一个好习惯。
您可能要检查它:https://stats.stackexchange.com/questions/56302/what-are-good-rmse-values