我正在尝试创建一个模型,我的数据分为训练(70%),验证(15%)和测试(15%)设置。运行模型后,我得到一些准确性(ROC)和一些值我的混淆矩阵。但每次我不断改变种子值,它都会影响我的输出。我该如何解决这个问题?这是预期的行为吗?如果是这样,我怎样才能得出哪个值被选为最终输出的结论?
答案 0 :(得分:2)
set.seed()
定义了生成随机值的起点。使用相同的种子运行分析应该返回相同的结果。使用不同的种子可能导致不同的输出。在您的情况下,可能是因为在培训,验证和测试方面存在不同的分歧。
如果差异可以接受的很小,那么您的模型对于培训,测试和验证中的不同分组是健壮的。如果差异很大,那么您的模型不健壮且不应受信任。您将不得不改变数据分割的方式(分层可能会有所帮助)或修改模型。