PySpark读取GBK HDFS包含中文字符

时间:2017-06-09 05:07:50

标签: python-2.7 apache-spark pyspark text-files gbk

我有许多以GBK编码的大型HDFS文件,但这些文件包含特殊字符,包括中文等。这些中文字符串将显示或保存到文件中。我该如何处理这个问题呢?

PySpark仅支持UTF-8阅读器。

  • Spark版本:2.0.0。
  • Hadoop版本:2.7
  • Python 2.7

添加如下:

结果将保存到文件中,然后结果文件将用于另一个系统,例如SDK。我打印了一个单词,就像你的作品一样,显然是无效的。

0 个答案:

没有答案