我在PySpark中有一个场景,在这里我必须在worker级别上对pandas数据帧进行一些计算。以下是代码段
def func1(x):
res_list = []
for i in x:
if i
res_list.append(i)
pandasdf = pd.DataFrame(res_list,columns=sch)
<computation>
<save pandasdf to HDFS>
df = spark.read.csv('/path/')
sch = df.schema.names
rdd = df.rdd.repartition(5)
rdd.foreachPartition(func1)
我正在集群模式下运行它。我想将Pandas数据帧保存为HDFS,我尝试将Pandas数据帧转换为spark数据帧,但是在worker节点中无法转换为spark数据帧。谁能帮我将功能旁边的熊猫数据框保存到HDFS