标签: python apache-spark encoding pyspark
简单的例子,我已经能够使用Spark 1.6.2和2.1.1(Jupyter下的Python 2.7.9)重现:
sc.parallelize(['a']).pipe("cat").collect()
收益[u'a'],但请尝试
[u'a']
sc.parallelize(['å']).pipe("cat").collect()
,它永远不会返回
尝试用unicode代表字符串,没有运气。
unicode
这一定是广为人知的,我不知道。