我是机器学习的新手,并试图通过scikit-learn掌握我的第一步。我想根据时空传感器数据计算插值。我有大量的测量站,它们可以同时(每小时)测量数据。对于每个测量站,我都有一个唯一的坐标(X,Y,Z)。因此,我对每个测量站的测量/固定值包括:
Timestamp, X, Y, Z, Value + Possible further values
2018-05-04 00:00:00, 32362422.00, 5656123.00, 54.28, 4.28, ..
2018-05-04 00:00:00, 32365418.00, 5656413.00, 72.47, 3.12, ..
2018-05-04 00:00:00, 32360290.00, 5656973.00, 51.11, 2.50, ..
...
2018-05-04 01:00:00, 32362422.00, 5656123.00, 54.28, 4.53, ..
2018-05-04 01:00:00, 32365418.00, 5656413.00, 72.47, 3.27, ..
...
(train data)
(所有数据均以CSV文件形式提供)。
我想对测量站之间的坐标值进行插值。 当然,要插值的值应该取决于模型尚不知道的新值
Sensor Data again
2018-05-22 16:00:00, 32362422.00, 5656123.00, 54.28, 0.29, ..
2018-05-22 16:00:00, 32365418.00, 5656413.00, 72.47, 1.12, ..
2018-05-22 16:00:00, 32360290.00, 5656973.00, 51.11, 0.73, ..
... -> All Measurements
New data to be interpolated in a grid:
2018-05-22 16:00:00, 32362500.00, 5656150.00, 55.81, ?, ..
2018-05-22 16:00:00, 32362500.00, 5656200.00, 56.44, ?, ..
...
(interpolation data)
对于计算,我想使用随机森林回归器。
但是,我有点不知所措:
如何将数据作为汇总块(具有相同的时间戳)传递给我的模型?
我如何最好地验证此类记录?另外,为了进行交叉验证,我的数据必须捆绑在一起吗?
我非常感谢您的任何建议。答案也可能有些详细。 干杯。
编辑:
当然,我的标签是测站测量的值。
我为每个时间戳尝试了一次热编码(相等的时间=同一组)。下一步,要为我的数字高程模型的每个坐标预测一个值。
还没有,我认为RF将创建最简单/最好的模型。我会在下一个尝试。