我的DataFrame是这样的:
------------------------------------
product item qty flag
------------------------------------
A A021 2 0
A A021 3 1
B B031 4 0
B B031 4 1
B B031 6 1
C C040 5 1
------------------------------------
我想删除列product
和列item
的重复行。如果某些行具有相同的product
和item
,则会删除flag
为1
的行
(这是关键点)。所以我的目标DataFrame是这样的:
------------------------------------
product item qty flag
------------------------------------
A A021 2 0
B B031 4 0
C C040 5 1
------------------------------------
如何使用Pyspark 1.5.1 中的 RDD或DataFrame实现此目的?