Question

我有一个spark python脚本，其中包含groupBy。特别是，结构是

import operator
result = sc.textFile(...).map(...).groupBy(...).map(...).reduce(operator.add)

当我在ipython pyspark shell中运行它时，它运行正常。但是，当我尝试编写脚本并通过spark-submit运行它时，我得到一个pickle.PicklingError: Can't pickle builtin <type 'method_descriptor'>错误，引用groupBy作为关注点。有没有已知的解决方法呢？

Answer 1

事实证明，泡菜不能做很多事情，包括lambdas。我正在做一些事情，需要更加小心。

在Spark中，如何将groupBy与spark-submit一起使用？

1 个答案: