我正在尝试在熊猫或pyspark中锻炼。
我有两个数据框。如果比较成功,我需要比较两个数据帧之间的几列,并更改第一个数据帧中一列的值。
数据框1 :
Article Country1 Country2 Colour Date_finish Buy
Pants Germany Italy Red 12-01-2019 0
Pull Poland Russia Blue 15-08-2019 0
最初,我所有文章的标志“购买” 都设置为零。我有数据框2 ,其外观如下:
Article Origin Colour Date_stock Available
Pull Poland Blue 15-01-2019 Yes
Dress Italy Red 26-01-2019 No
我需要将 df1 中的'Buy'设置为我发现 df2中至少有一行的1 其中: 文章和
相同我尝试使用pyspark遍历两个数据框,但是pyspark daatframes不可迭代。我曾考虑过要在熊猫中这样做,但是在迭代过程中更改值显然是个坏习惯。
pyspark或pandas中的哪个代码可以完成我需要做的事情?
谢谢!