应用错误收集

如何在不使用循环的情况下更新数据框

时间：2019-04-05 13:49:50

标签： pyspark pyspark-sql

我有两个源数据帧：

Storeorder: {columns=Store, Type_of_carriers, No_of_carriers, Total_space_required}
Fleetplanner: {columns=Store, Truck_Type, Truck_space, Route}

要求是：

使用{Store，Type_of_carriers，No_of_carriers，路线}创建列表
在Fleetplanner数据中，一个商店可以具有多个Truck_type和路线。同样，一条路线可以有多个商店或停靠点。
每次我从Storeorder取得记录时，我都要指定有多少家航空公司将去哪条路线。
与此同时，我必须用下一个商店剩余的空间来更新Fleetplanner数据。

这是我在Pandas中使用循环完成的，这需要花费大量时间。

有人可以建议如何在Spark中以替代方式解决此问题吗？

我已经使用Pandas解决了这个问题，但是想在Spark中并行化

已描述

0 个答案:

没有答案