Question

我是机器学习的新手，并试图通过scikit-learn掌握我的第一步。我想根据时空传感器数据计算插值。我有大量的测量站，它们可以同时（每小时）测量数据。对于每个测量站，我都有一个唯一的坐标（X，Y，Z）。因此，我对每个测量站的测量/固定值包括：

     Timestamp,          X,           Y,        Z,   Value + Possible further values
2018-05-04 00:00:00, 32362422.00, 5656123.00, 54.28, 4.28, ..
2018-05-04 00:00:00, 32365418.00, 5656413.00, 72.47, 3.12, ..
2018-05-04 00:00:00, 32360290.00, 5656973.00, 51.11, 2.50, ..
...
2018-05-04 01:00:00, 32362422.00, 5656123.00, 54.28, 4.53, ..
2018-05-04 01:00:00, 32365418.00, 5656413.00, 72.47, 3.27, ..
...

(train data)

（所有数据均以CSV文件形式提供）。

我想对测量站之间的坐标值进行插值。当然，要插值的值应该取决于模型尚不知道的新值

Sensor Data again
2018-05-22 16:00:00, 32362422.00, 5656123.00, 54.28, 0.29, ..
2018-05-22 16:00:00, 32365418.00, 5656413.00, 72.47, 1.12, ..
2018-05-22 16:00:00, 32360290.00, 5656973.00, 51.11, 0.73, ..
... -> All Measurements

New data to be interpolated in a grid:
2018-05-22 16:00:00, 32362500.00, 5656150.00, 55.81, ?, ..
2018-05-22 16:00:00, 32362500.00, 5656200.00, 56.44, ?, ..
...
(interpolation data)

对于计算，我想使用随机森林回归器。

但是，我有点不知所措：

如何将数据作为汇总块（具有相同的时间戳）传递给我的模型？
我如何最好地验证此类记录？另外，为了进行交叉验证，我的数据必须捆绑在一起吗？

我非常感谢您的任何建议。答案也可能有些详细。干杯。

编辑：

当然，我的标签是测站测量的值。
我为每个时间戳尝试了一次热编码（相等的时间=同一组）。下一步，要为我的数字高程模型的每个坐标预测一个值。
还没有，我认为RF将创建最简单/最好的模型。我会在下一个尝试。

如何将时空数据传递到sklearn模型中？

0 个答案: