Question

我创建了一个接受2个输入的函数（func）：

1. A 2 dimensional array - X
2. A 1 dimensional array - Y

我能够通过将RDD转换为pandas数据帧然后创建np.array（pandas datframe）作为输入X到func来执行所需的操作。

假设X有10个col。我希望以并行方式处理所有10个col，这样我就可以同时为10个col中的每个col调用func。如何使用pyspark使用RDD数据框来实现它以获得所有10个col的函数输出？

Answer 1

您可以在python中执行multiprocessing