如何将时空数据传递到sklearn模型中?

时间:2018-12-13 22:09:47

标签: machine-learning scikit-learn interpolation random-forest

我是机器学习的新手,并试图通过scikit-learn掌握我的第一步。我想根据时空传感器数据计算插值。我有大量的测量站,它们可以同时(每小时)测量数据。对于每个测量站,我都有一个唯一的坐标(X,Y,Z)。因此,我对每个测量站的测量/固定值包括:

     Timestamp,          X,           Y,        Z,   Value + Possible further values
2018-05-04 00:00:00, 32362422.00, 5656123.00, 54.28, 4.28, ..
2018-05-04 00:00:00, 32365418.00, 5656413.00, 72.47, 3.12, ..
2018-05-04 00:00:00, 32360290.00, 5656973.00, 51.11, 2.50, ..
...
2018-05-04 01:00:00, 32362422.00, 5656123.00, 54.28, 4.53, ..
2018-05-04 01:00:00, 32365418.00, 5656413.00, 72.47, 3.27, ..
...

(train data)

(所有数据均以CSV文件形式提供)。

我想对测量站之间的坐标值进行插值。 当然,要插值的值应该取决于模型尚不知道的新值

Sensor Data again
2018-05-22 16:00:00, 32362422.00, 5656123.00, 54.28, 0.29, ..
2018-05-22 16:00:00, 32365418.00, 5656413.00, 72.47, 1.12, ..
2018-05-22 16:00:00, 32360290.00, 5656973.00, 51.11, 0.73, ..
... -> All Measurements

New data to be interpolated in a grid:
2018-05-22 16:00:00, 32362500.00, 5656150.00, 55.81, ?, ..
2018-05-22 16:00:00, 32362500.00, 5656200.00, 56.44, ?, ..
...
(interpolation data)

对于计算,我想使用随机森林回归器。

但是,我有点不知所措:

  1. 如何将数据作为汇总块(具有相同的时间戳)传递给我的模型?

  2. 我如何最好地验证此类记录?另外,为了进行交叉验证,我的数据必须捆绑在一起吗?

我非常感谢您的任何建议。答案也可能有些详细。 干杯。

编辑:

  1. 当然,我的标签是测站测量的值。

  2. 我为每个时间戳尝试了一次热编码(相等的时间=同一组)。下一步,要为我的数字高程模型的每个坐标预测一个值。

  3. 还没有,我认为RF将创建最简单/最好的模型。我会在下一个尝试。

0 个答案:

没有答案