从Spark中的几行创建一个值

时间:2019-06-12 19:24:02

标签: pyspark

我想从最常见的两个邮政编码中创建一个名为zip1_zip2的列。我首先可以通过ID和市场来识别前两个邮政编码,并获得如下所示的数据。

df = spark.createDataFrame([('A','M1','1'),('A','M1','2'), ('A','M2','3'),('A','M2','4')], ['id','market', 'zip'])
df.show()

| id|market|zip|
+---+------+---+
|  A|    M1|  1|
|  A|    M1|  2|
|  A|    M2|  3|
|  A|    M2|  4|
+---+------+---+

然后,我要创建:

| id|market|zip1-zip2|
+---+------+---------+
|  A|    M1|      1-2|
|  A|    M2|      3-4|
+---+------+---------+

0 个答案:

没有答案