在Spark中,如何将groupBy与spark-submit一起使用?

时间:2014-11-04 00:08:08

标签: python group-by apache-spark

我有一个spark python脚本,其中包含groupBy。特别是,结构是

import operator
result = sc.textFile(...).map(...).groupBy(...).map(...).reduce(operator.add)

当我在ipython pyspark shell中运行它时,它运行正常。但是,当我尝试编写脚本并通过spark-submit运行它时,我得到一个pickle.PicklingError: Can't pickle builtin <type 'method_descriptor'>错误,引用groupBy作为关注点。有没有已知的解决方法呢?

1 个答案:

答案 0 :(得分:0)

事实证明,泡菜不能做很多事情,包括lambdas。我正在做一些事情,需要更加小心。