应用错误收集

我正在使用一个项目中的PySpark，我们目前正在使用法语tweet。我们读取JSON并将其放入数据框。问题在于，在我们的数据框中，我们有很多特殊字符，例如重音符号，Ç等。我们希望在将其转换为RDD之前，使用Unicode数据功能对文本列进行规范化。

+------------------------+--------------------+

|created_at..............|                text|

+------------------------+--------------------+

|Sat Jul 23 20:00:...|ma petite sœur el...|

+------------------------+--------------------+

那是我们已经尝试过的：

tw_fr['text'] = unicodedata.normalize('NFKD',tw_fr['text'])

（但是我们不能直接修改需要创建一个新数据框的数据框）

r= lambda z : unicodedata.normalize('NFKD',z)

tw= tw_fr.select('text', r('text').alias('int_squared')).show()

已经有好几天了，所以如果您有任何想法...

谢谢！

如何在PySpark中使用unicode数据转换dataframe列

0 个答案: