从pyspark数据框中的两列安排记录

时间:2019-10-22 12:05:12

标签: pyspark pyspark-sql

我想在一列中获取记录,该记录可进一步用于分组。 1. col1中存在于col2中的记录(如帐户)需要替换为col2相似行值的col1记录,即(aaccounti) 2.必须以如下方式处理在col2中重复的记录,例如(joinmuquiz):用第一次出现的col1(joinmquiz)值代替col1(joinqui)值的第二次出现,而应替换col1(joinquiquiz)值的第一次出现。 col2(joinmuquiz)值

 |-----------|--------------|   
 | col1      |    col2      |
 |-----------|--------------|
 |aaccounti  |  account     |
 |account    |  baccountry  |
 |joinmquiz  | joinmuquiz   |
 |joinqui    |  joinmuquiz  |
 |ahanime    |   hanime     |
 ----------------------------

以下是我期望的输出;

 |-----------|--------------|   
 | col1      |    col2      |
 |-----------|--------------|
 |aaccounti  |  account     |
 |aaccounti  |  baccountry  |
 |joinmquiz  | joinmuquiz   |
 |joinmquiz  | joinqui      |
 |ahanime    |   hanime     |
 ----------------------------

0 个答案:

没有答案