Question

我想在一列中获取记录，该记录可进一步用于分组。 1. col1中存在于col2中的记录（如帐户）需要替换为col2相似行值的col1记录，即（aaccounti） 2.必须以如下方式处理在col2中重复的记录，例如（joinmuquiz）：用第一次出现的col1（joinmquiz）值代替col1（joinqui）值的第二次出现，而应替换col1（joinquiquiz）值的第一次出现。 col2（joinmuquiz）值

 |-----------|--------------|   
 | col1      |    col2      |
 |-----------|--------------|
 |aaccounti  |  account     |
 |account    |  baccountry  |
 |joinmquiz  | joinmuquiz   |
 |joinqui    |  joinmuquiz  |
 |ahanime    |   hanime     |
 ----------------------------

以下是我期望的输出；

 |-----------|--------------|   
 | col1      |    col2      |
 |-----------|--------------|
 |aaccounti  |  account     |
 |aaccounti  |  baccountry  |
 |joinmquiz  | joinmuquiz   |
 |joinmquiz  | joinqui      |
 |ahanime    |   hanime     |
 ----------------------------

从pyspark数据框中的两列安排记录

0 个答案: