迭代两个数据框,比较并更改pandas或pyspark中的值-复杂比较

时间:2019-09-23 20:26:59

标签: pandas pyspark

我正在尝试在熊猫或pyspark中锻炼。

我有两个数据框。如果比较成功,我需要比较两个数据帧之间的几列,并更改第一个数据帧中一列的值。

数据框1

Article    Country1  Country2  Colour    Date_finish  Buy
Pants      Germany   Italy     Red       12-01-2019   0
Pull       Poland    Russia    Blue      15-08-2019   0

最初,我所有文章的标志“购买” 都设置为零。我有数据框2 ,其外观如下:

Article    Origin    Colour   Date_stock  Available
Pull       Poland    Blue     15-01-2019  Yes
Dress      Italy     Red      26-01-2019  No

我需要将 df1 中的'Buy'设置为我发现 df2中至少有一行的1 其中: 文章和

相同
    df2 中的
  • 来源等于 Country1 Country2 > df1
  • df2 中的
  • 日期应晚于df1和
  • 中的日期
  • 颜色匹配和
  • dem2 中的
  • 可用”列设置为“是”

我尝试使用pyspark遍历两个数据框,但是pyspark daatframes不可迭代。我曾考虑过要在熊猫中这样做,但是在迭代过程中更改值显然是个坏习惯。

pyspark或pandas中的哪个代码可以完成我需要做的事情?

谢谢!

0 个答案:

没有答案