我想使用PySpark在每个节点上执行某些操作,如下所示:
rdd = sqlContext.read.parquet("...").rdd
def f (i):
import sys, socket
return [(socket.gethostname(),sys.version)]
vv = rdd.mapPartitions(f).collect()
但我不知道为什么我需要为此加载文件。
我该怎么做?
答案 0 :(得分:1)
如果您只想要任何旧的RDD,可以使用sc.parallelize(range(num_executors), num_executors)
或类似的东西。