如何在PySpark中使用unicode数据转换dataframe列

时间:2019-01-15 16:40:53

标签: apache-spark pyspark apache-spark-sql rdd

我正在使用一个项目中的PySpark,我们目前正在使用法语tweet。我们读取JSON并将其放入数据框。问题在于,在我们的数据框中,我们有很多特殊字符,例如重音符号,Ç等。我们希望在将其转换为RDD之前,使用Unicode数据功能对文本列进行规范化。

+------------------------+--------------------+

|created_at..............|                text|

+------------------------+--------------------+

|Sat Jul 23 20:00:...|ma petite sœur el...|

+------------------------+--------------------+

那是我们已经尝试过的:

tw_fr['text'] = unicodedata.normalize('NFKD',tw_fr['text'])

(但是我们不能直接修改需要创建一个新数据框的数据框)

r= lambda z : unicodedata.normalize('NFKD',z)

tw= tw_fr.select('text', r('text').alias('int_squared')).show()

已经有好几天了,所以如果您有任何想法...

谢谢!

0 个答案:

没有答案