在spark集群模式下保存countByKey,countByValue的结果

时间:2016-07-06 19:07:28

标签: python apache-spark pyspark distributed

我是一个引发节目制作的新手,我正在使用pyspark来开发我的应用

我必须在spark中计算一些统计数据,我需要它们以腌制地图的形式。这在本地模式下很简单。但在集群模式下,我该如何做到这一点?

myDict= allData.map(lambda x :(x.mykey,x.myvalue).countByValue()
#pickle.dump(dict(myDict),pickleFile) This I can do in local mode

如何在群集模式下存储myDict的结果?这甚至可能吗?

0 个答案:

没有答案