从工作进程保存到分布式文件系统

时间:2015-11-09 21:25:50

标签: apache-spark pyspark

我对pyspark很新。在我的pyspark应用程序中,我希望实现以下目标:

  1. 使用python list创建RDD并将其分区为一些分区。
  2. 现在使用rdd.mapPartitions(func)
  3. 这里,函数" func"执行迭代操作,将已保存文件的内容读入局部变量(例如numpy数组),使用rdd partion数据执行一些更新,并再次将变量内容保存到某个公共文件系统。
  4. 我无法弄清楚如何在工作进程中读取和写入一个可供所有进程访问的变量?

0 个答案:

没有答案