标签: python-2.7 apache-spark pyspark text-files gbk
我有许多以GBK编码的大型HDFS文件,但这些文件包含特殊字符,包括中文等。这些中文字符串将显示或保存到文件中。我该如何处理这个问题呢?
PySpark仅支持UTF-8阅读器。
添加如下:
结果将保存到文件中,然后结果文件将用于另一个系统,例如SDK。我打印了一个单词,就像你的作品一样,显然是无效的。