我有一个spark python脚本,其中包含groupBy。特别是,结构是
import operator
result = sc.textFile(...).map(...).groupBy(...).map(...).reduce(operator.add)
当我在ipython pyspark shell中运行它时,它运行正常。但是,当我尝试编写脚本并通过spark-submit运行它时,我得到一个pickle.PicklingError: Can't pickle builtin <type 'method_descriptor'>
错误,引用groupBy作为关注点。有没有已知的解决方法呢?
答案 0 :(得分:0)
事实证明,泡菜不能做很多事情,包括lambdas。我正在做一些事情,需要更加小心。