应用错误收集

我正在尝试在pyspark中阅读带有中文字符的文本文件。但数据内部将其视为unicode字符串并将其保存/显示为unicode。我想把它们保存为中国人。

我正在使用Jupyter笔记本 Python 2.7 spark：spark-1.6.0-bin-hadoop2.6

实际数据：＆＃34;广东省电白建筑工程总公司＆＃34; | 2015年8月5日＆＃34;广东省阳江市建安集团有限公司＆＃34; | 2015年7月9日

代码：
data = sc.textFile（＆＃34; /Users/msr/Desktop/newsData0210.txt"） data.take（1）

O / P： U＆＃39;＆＃34; \ u5e7f \ u4e1c \ u7701 \ u7535 \ u767d \ u5efa \ u7b51 \ u5de5 \ u7a0b \ u603b \ u516c \ u53f8＆＃34; | 2015年8月5日＆＃39;

请建议是否有办法避免这种自动转换

编辑： @Alberto Bonsanto ..我的终端可以显示unicodes。 Spark内部将中文字符串转换为unicode字符串。其实我需要对数据进行分类。这种自动转换导致了问题。有没有办法阻止这种自动转换。

解决：当我们从2.7更新python到3.4时问题得到了解决。不知道为什么它失败了python 2.7。我已经尝试了在这个帖子中给出的其他参考文章中提到的选项。