根据其他来源的数据的时间频率插值每小时数据

时间:2019-02-06 19:41:13

标签: python pandas pyspark missing-data

我正在寻找建议,根据其他数据源的时间频率,按小时频率插入可用数据。

例如:

我有一个数据框,其中包含如下所述的每小时频率的天气测量值以及大约4至5分钟间隔的传感器读数。因此,我想根据从其他数据源读取传感器的时间频率来转换天气测量结果。

可以将熊猫用于pyspark吗?我知道那里有一些功能。谢谢 气象测量:

../../public_html

传感器读数:

+----------+----------------------+
|Wind_speed|Forecast_Time         |
+----------+----------------------+
|22        |2019-01-29T15:00:00+00|
|17        |2019-01-29T16:00:00+00|
|23        |2019-01-29T17:00:00+00|
|11        |2019-01-29T18:00:00+00|
|10        |2019-01-29T19:00:00+00|
+----------+----------------------+ 

结果可能是这样的:

+----------------------+-----------+------+
|DateTime              |Total count|Avail |
+----------------------+-----------+------+
|2019-01-29T15:24:02+00|45         |350   |
|2019-01-29T15:20:19+00|511        |710   |
|2019-01-29T15:24:02+00|131        |352   |
|2019-01-29T15:24:02+00|134        |376   |
|2019-01-29T15:24:02+00|69         |436   |
|2019-01-29T15:20:24+00|472        |935   |
|2019-01-29T15:24:06+00|138        |330   |
|2019-01-29T15:24:06+00|415        |749   |
|2019-01-29T15:29:02+00|45         |350   |
|2019-01-29T15:20:19+00|511        |710   |
+----------------------+-----------+------+

1 个答案:

答案 0 :(得分:0)

如果您知道如何在pandas中进行操作,则只需创建函数并使用pandas_udf