如何在pyspark中选择列的不同行?

时间:2018-06-10 12:34:21

标签: apache-spark dataframe pyspark rdd

我的DataFrame是这样的:

------------------------------------
 product   item      qty       flag
------------------------------------
   A       A021      2          0
   A       A021      3          1
   B       B031      4          0
   B       B031      4          1
   B       B031      6          1
   C       C040      5          1
------------------------------------

我想删除列product和列item的重复行。如果某些行具有相同的productitem,则会删除flag1 的行 (这是关键点)。所以我的目标DataFrame是这样的:

------------------------------------
 product   item      qty       flag
------------------------------------
   A       A021      2          0
   B       B031      4          0
   C       C040      5          1
------------------------------------

如何使用Pyspark 1.5.1 中的 RDD或DataFrame实现此目的?

0 个答案:

没有答案