Pyspark .pipe()将无限期挂起非ASCII字符

时间:2017-07-04 10:17:50

标签: python apache-spark encoding pyspark

简单的例子,我已经能够使用Spark 1.6.2和2.1.1(Jupyter下的Python 2.7.9)重现:

sc.parallelize(['a']).pipe("cat").collect()

收益[u'a'],但请尝试

sc.parallelize(['å']).pipe("cat").collect()

,它永远不会返回

尝试用unicode代表字符串,没有运气。

这一定是广为人知的,我不知道。

0 个答案:

没有答案