我正在尝试在pyspark中阅读带有中文字符的文本文件。但数据内部将其视为unicode字符串并将其保存/显示为unicode。我想把它们保存为中国人。
我正在使用Jupyter笔记本 Python 2.7 spark:spark-1.6.0-bin-hadoop2.6
实际数据: "广东省电白建筑工程总公司" | 2015年8月5日 "广东省阳江市建安集团有限公司" | 2015年7月9日
代码:
data = sc.textFile(" /Users/msr/Desktop/newsData0210.txt")
data.take(1)
O / P: U'" \ u5e7f \ u4e1c \ u7701 \ u7535 \ u767d \ u5efa \ u7b51 \ u5de5 \ u7a0b \ u603b \ u516c \ u53f8" | 2015年8月5日'
请建议是否有办法避免这种自动转换
编辑: @Alberto Bonsanto ..我的终端可以显示unicodes。 Spark内部将中文字符串转换为unicode字符串。其实我需要对数据进行分类。这种自动转换导致了问题。有没有办法阻止这种自动转换。
解决: 当我们从2.7更新python到3.4时问题得到了解决。不知道为什么它失败了python 2.7。我已经尝试了在这个帖子中给出的其他参考文章中提到的选项。