我正在使用一个项目中的PySpark,我们目前正在使用法语tweet。我们读取JSON并将其放入数据框。问题在于,在我们的数据框中,我们有很多特殊字符,例如重音符号,Ç等。我们希望在将其转换为RDD之前,使用Unicode数据功能对文本列进行规范化。
+------------------------+--------------------+
|created_at..............| text|
+------------------------+--------------------+
|Sat Jul 23 20:00:...|ma petite sœur el...|
+------------------------+--------------------+
那是我们已经尝试过的:
tw_fr['text'] = unicodedata.normalize('NFKD',tw_fr['text'])
(但是我们不能直接修改需要创建一个新数据框的数据框)
r= lambda z : unicodedata.normalize('NFKD',z)
tw= tw_fr.select('text', r('text').alias('int_squared')).show()
已经有好几天了,所以如果您有任何想法...
谢谢!