Question

我想使用PySpark在每个节点上执行某些操作，如下所示：

 rdd = sqlContext.read.parquet("...").rdd
 def f (i):
   import sys, socket
   return [(socket.gethostname(),sys.version)]
 vv = rdd.mapPartitions(f).collect()

但我不知道为什么我需要为此加载文件。

我该怎么做？

Answer 1

如果您只想要任何旧的RDD，可以使用sc.parallelize(range(num_executors), num_executors)或类似的东西。

在PySpark中的每个节点上执行代码

1 个答案: