拥有如下数据框(实际上它包含更多行):
Time |EventType| OrderId|Size| Price|Direction|message_id|Second|
|34200.105| 5| 0| 100|1103400| 1| 0| 34200|
我只需要过滤特定的EventType,然后按秒进行分组,然后选择组中第一个元素的价格(表示按第二个分组时特定组中具有最小时间值的行的价格) 。需要写在pyspark。
最终数据集应如下所示:
Open | Second |
113411 | 34200 |
最终的解决方案是获得聚合:开放,高,低,关闭在pyspark,例如:
Open | Second | High | Low | Close
113411 | 34200 | 113412| 1123415 | 1113413