我正在寻找建议,根据其他数据源的时间频率,按小时频率插入可用数据。
例如:
我有一个数据框,其中包含如下所述的每小时频率的天气测量值以及大约4至5分钟间隔的传感器读数。因此,我想根据从其他数据源读取传感器的时间频率来转换天气测量结果。
可以将熊猫用于pyspark吗?我知道那里有一些功能。谢谢 气象测量:
../../public_html
传感器读数:
+----------+----------------------+
|Wind_speed|Forecast_Time |
+----------+----------------------+
|22 |2019-01-29T15:00:00+00|
|17 |2019-01-29T16:00:00+00|
|23 |2019-01-29T17:00:00+00|
|11 |2019-01-29T18:00:00+00|
|10 |2019-01-29T19:00:00+00|
+----------+----------------------+
结果可能是这样的:
+----------------------+-----------+------+
|DateTime |Total count|Avail |
+----------------------+-----------+------+
|2019-01-29T15:24:02+00|45 |350 |
|2019-01-29T15:20:19+00|511 |710 |
|2019-01-29T15:24:02+00|131 |352 |
|2019-01-29T15:24:02+00|134 |376 |
|2019-01-29T15:24:02+00|69 |436 |
|2019-01-29T15:20:24+00|472 |935 |
|2019-01-29T15:24:06+00|138 |330 |
|2019-01-29T15:24:06+00|415 |749 |
|2019-01-29T15:29:02+00|45 |350 |
|2019-01-29T15:20:19+00|511 |710 |
+----------------------+-----------+------+
答案 0 :(得分:0)
如果您知道如何在pandas中进行操作,则只需创建函数并使用pandas_udf