python-2.7 - PySpark读取GBK HDFS包含中文字符 - Thinbug

PySpark读取GBK HDFS包含中文字符

时间：2017-06-09 05:07:50

标签： python-2.7 apache-spark pyspark text-files gbk

我有许多以GBK编码的大型HDFS文件，但这些文件包含特殊字符，包括中文等。这些中文字符串将显示或保存到文件中。我该如何处理这个问题呢？

PySpark仅支持UTF-8阅读器。

Spark版本：2.0.0。
Hadoop版本：2.7
Python 2.7

添加如下：

结果将保存到文件中，然后结果文件将用于另一个系统，例如SDK。我打印了一个单词，就像你的作品一样，显然是无效的。

0 个答案:

没有答案