在分区列上的Pyspark自动编号

时间:2019-02-11 15:32:12

标签: pyspark autonumber

我的数据框中有一个敏感的列。我需要将敏感值替换为数字,但必须这样做,以便所讨论的列的不同计数保持准确。我正在考虑在窗口分区上使用sql函数。但是找不到办法。

下面是一个示例数据框。

    df = (sc.parallelize([
    {"sensitive_id":"1234"},
    {"sensitive_id":"1234"}, 
    {"sensitive_id":"1234"},
    {"sensitive_id":"2345"},
    {"sensitive_id":"2345"},
    {"sensitive_id":"6789"},
    {"sensitive_id":"6789"},
    {"sensitive_id":"6789"},
    {"sensitive_id":"6789"}
 ]).toDF()
.cache()
      )

enter image description here

我想创建一个如下所示的数据框。

完成此任务的方法是什么。

enter image description here

2 个答案:

答案 0 :(得分:0)

您正在寻找dense_rank函数:

df.withColumn(
  "non_sensitive_id",
  F.dense_rank().over(Window.partitionBy().orderBy("sensitive_id"))
).show()

+------------+----------------+
|sensitive_id|non_sensitive_id|
+------------+----------------+
|        1234|               1|
|        1234|               1|
|        1234|               1|
|        2345|               2|
|        2345|               2|
|        6789|               3|
|        6789|               3|
|        6789|               3|
|        6789|               3|
+------------+----------------+

答案 1 :(得分:0)

这是另一种方式,可能效率不高,因为join()会涉及改组-

创建数据框-

from pyspark.sql.window import Window
from pyspark.sql.functions import col, row_number
df = sqlContext.createDataFrame([(1234,),(1234,),(1234,),(2345,),(2345,),(6789,),(6789,),(6789,),(6789,)],['sensitive_id']) 

创建一个包含不同元素的DataFrame并将其标记为1,2,3...,最后将两个Dataframe连接起来。

df_distinct = df.select('sensitive_id').distinct().withColumn('non_sensitive_id', row_number().over(Window.orderBy('sensitive_id')))
df = df.join(df_distinct, ['sensitive_id'],how='left').orderBy('sensitive_id')
df.show()
+------------+----------------+
|sensitive_id|non_sensitive_id|
+------------+----------------+
|        1234|               1|
|        1234|               1|
|        1234|               1|
|        2345|               2|
|        2345|               2|
|        6789|               3|
|        6789|               3|
|        6789|               3|
|        6789|               3|
+------------+----------------+