我想从最常见的两个邮政编码中创建一个名为zip1_zip2的列。我首先可以通过ID和市场来识别前两个邮政编码,并获得如下所示的数据。
df = spark.createDataFrame([('A','M1','1'),('A','M1','2'), ('A','M2','3'),('A','M2','4')], ['id','market', 'zip'])
df.show()
| id|market|zip|
+---+------+---+
| A| M1| 1|
| A| M1| 2|
| A| M2| 3|
| A| M2| 4|
+---+------+---+
然后,我要创建:
| id|market|zip1-zip2|
+---+------+---------+
| A| M1| 1-2|
| A| M2| 3-4|
+---+------+---------+