如何在不使用循环的情况下更新数据框

时间:2019-04-05 13:49:50

标签: pyspark pyspark-sql

我有两个源数据帧:

Storeorder: {columns=Store, Type_of_carriers, No_of_carriers, Total_space_required}
Fleetplanner: {columns=Store, Truck_Type, Truck_space, Route}

要求是:

  1. 使用{Store,Type_of_carriers,No_of_carriers,路线}创建列表

  2. 在Fleetplanner数据中,一个商店可以具有多个Truck_type和 路线。同样,一条路线可以有多个商店或停靠点。

  3. 每次我从Storeorder取得记录时,我都要指定有多少家航空公司将去哪条路线。
  4. 与此同时,我必须用下一个商店剩余的空间来更新Fleetplanner数据。

这是我在Pandas中使用循环完成的,这需要花费大量时间。

有人可以建议如何在Spark中以替代方式解决此问题吗?

我已经使用Pandas解决了这个问题,但是想在Spark中并行化

已描述

0 个答案:

没有答案