Question

我的DataFrame是这样的：

------------------------------------
 product   item      qty       flag
------------------------------------
   A       A021      2          0
   A       A021      3          1
   B       B031      4          0
   B       B031      4          1
   B       B031      6          1
   C       C040      5          1
------------------------------------

我想删除列product和列item的重复行。如果某些行具有相同的product和item，则会删除flag为1 的行（这是关键点）。所以我的目标DataFrame是这样的：

------------------------------------
 product   item      qty       flag
------------------------------------
   A       A021      2          0
   B       B031      4          0
   C       C040      5          1
------------------------------------

如何使用Pyspark 1.5.1 中的 RDD或DataFrame实现此目的？

如何在pyspark中选择列的不同行？

0 个答案: