应用错误收集

时间：2017-01-12 17:28:34

标签： python scikit-learn linear-regression

我有一个共有58个样本的数据集。数据集有两列＆＃34;测量信号＆＃34;和＆＃34; people_in_area＆＃34;。因此，我正在尝试使用Scikit-learn训练线性回归模型。目前，我将75％的数据集用于培训，25％用于测试。但是，根据分割前数据的顺序，我获得了不同的R平方值。

我认为由于数据集较小，根据数据在拆分之前的顺序，不同的值将保留为x_test和y_test。因此，我正在考虑使用＆＃34;交叉验证＆＃34;在我的线性回归模型上，将测试和训练数据随机分成几次，训练更多，并且还能够测试更多，以这种方式获得更可靠的结果。这是正确的做法吗？

答案 0 :(得分：1)

是的，使用交叉验证可以更好地估算您的模型性能。

随机分割（交叉验证）不适用于时间序列和/或所有数据分布。

“最终模型”不仅仅是您对模型性能的估计。