我使用了一个训练源CSV文件,该文件被分为一个主数据框,然后将其分成80%的训练数据和20%的测试数据。在拆分数据之前,我对数据帧的所有列进行了归一化处理,以使所有独立和从属数据都在0到1之间,包括目标(因变量)。在训练后的结果中,我的预测值都在0到1之间。然后我对单个预测进行归一化,以查看得到的值并将其与期望值进行比较。我的问题是我正在通过MSE(均方误差)和RMSE(均方根误差)来测量模型。根据训练数据得出的MSE和RMSE分别为0.03和0.16。标准化数据源是否具有这些可接受的值?如果没有,对于我的标准化数据源,可接受的值是多少?还是我应该对数据进行归一化,因为我的自变量之间没有范围差异?如果我不对数据进行归一化,那么我应该使用归一化的RMSE来解释指标吗?如果在不对训练和测试数据进行归一化时对RMSE进行归一化,那么归一化RMSE的可接受值是多少?预先感谢您的任何答复。
答案 0 :(得分:2)
“好”应该相对于幼稚的预测(例如随机游走)来衡量。该基准将根据数据的波动程度而变化。 .5对于一个预测而言可能是可怕的,而对于另一个预测而言则可能是出色的。