如何解码在pyspark数据帧中具有十六进制编码的特殊UTF-8字符的字符串

时间:2019-12-17 15:10:49

标签: pyspark pyspark-sql

我有一个像下面这样的pyspark DataFrame,其中的特殊字符已经过十六进制编码。

+--------------------+
|item_name           |
+--------------------+
|Jogador n\xBA 10    |
|Camisa N\xB0 9      |
|Uniforme M\xE9dio   |
+--------------------+

我需要将其解码为UTF-8字符,如下所示:

+--------------------+
|item_name           |
+--------------------+
|Jogador nº 10       |
|Camisa N° 9         |
|Uniforme Médio      |
+--------------------+

Pyspark解码功能没有区别:

df.withColumn('test', decode(col('item_name'),'UTF-8')).show()

+--------------------+--------------------+
|item_name           |test                |
+--------------------+--------------------+
|Jogador n\xBA 10    |Jogador n\xBA 10    |
|Camisa N\xB0 9      |Camisa N\xB0 9      |
|Uniforme M\xE9dio   |Uniforme M\xE9dio   |
+--------------------+--------------------+

1 个答案:

答案 0 :(得分:0)

如果十六进制值前面带有双反斜杠(例如:\\ xBA而不是\ xBA),Pyspark将无法正确解码。

使用“ take(3)”代替“ show()”表明实际上还有第二个反斜杠:

[Row(item_name='Jogador n\\xBA 10'),
 Row(item_name='Camisa N\\xB0 9'),
 Row(item_name='Uniforme M\\xE9dio')]

为解决这个问题,我创建了一个UDF以使用“ unicode-escape”方法进行解码:

import pyspark.sql.functions as F
import pyspark.sql.types as T
my_udf = F.udf(lambda x: x.encode().decode('unicode-escape'),T.StringType())
df.withColumn('test', my_udf('item_name')).show()
+------------------+---------------+
|         item_name|           test|
+------------------+---------------+
|  Jogador n\xBA 10|  Jogador nº 10|
|    Camisa N\xB0 9|    Camisa N° 9|
| Uniforme M\xE9dio| Uniforme Médio|
+------------------+---------------+