在python spark notebook中错误的字符áéíñ

时间:2016-03-02 17:34:27

标签: python apache-spark character

我正在用西班牙语字符á,é,í...ñ加载一些傻瓜,显然它们存储得很好但是当我使用笔记本和python将它们加载到RDD中时,这些字母被\ xe1替换, \ xe9 ..等等。

示例:

u'RT @rodriguezjoma:El #petr \ xf3leo y #Repsol fracasan en su intento de superar resistencias:answer to an earlier question https://t.co/EtmZynrxQG', u'Metele Marc que quiero ver a la naranjita repsol con el#1 este a \ xf1o !!!',

我该怎么做才能找到合适的角色?

1 个答案:

答案 0 :(得分:0)

您拥有正确的字符,但是unicode字符串的表示形式使用转义序列来表示ASCII范围之外的字符。