pyspark:数据框的一列中逗号分隔的字符串中的第一个多余的非空值

时间:2019-09-16 17:41:24

标签: python pyspark extract

我有一个具有以下格式的数据框,其中包含两列ID和电话号码

id | phone_number  
 1 | ,1234567890,,0987654321,  
 2 |,7890123456,,9078651243,

我想拆分phone_number列,并在pyspark的单独列中仅选择第一个非空值

结果数据框应为

id | phone_number               | extracted_phone  
 1 | ,1234567890,,0987654321,   |1234567890  
 2 |,,,9078651243,              |9078651243

0 个答案:

没有答案