应用错误收集

Pyspark .pipe（）将无限期挂起非ASCII字符

时间：2017-07-04 10:17:50

标签： python apache-spark encoding pyspark

简单的例子，我已经能够使用Spark 1.6.2和2.1.1（Jupyter下的Python 2.7.9）重现：

sc.parallelize(['a']).pipe("cat").collect()

收益[u'a']，但请尝试

sc.parallelize(['å']).pipe("cat").collect()

，它永远不会返回

尝试用unicode代表字符串，没有运气。

这一定是广为人知的，我不知道。

0 个答案:

没有答案