应用错误收集

在spark集群模式下保存countByKey，countByValue的结果

时间：2016-07-06 19:07:28

标签： python apache-spark pyspark distributed

我是一个引发节目制作的新手，我正在使用pyspark来开发我的应用

我必须在spark中计算一些统计数据，我需要它们以腌制地图的形式。这在本地模式下很简单。但在集群模式下，我该如何做到这一点？

myDict= allData.map(lambda x :(x.mykey,x.myvalue).countByValue()
#pickle.dump(dict(myDict),pickleFile) This I can do in local mode

如何在群集模式下存储myDict的结果？这甚至可能吗？

0 个答案:

没有答案