在PySpark中保存熊猫数据框

时间:2019-01-03 22:25:29

标签: python pandas dataframe pyspark

我在PySpark中有一个场景,在这里我必须在worker级别上对pandas数据帧进行一些计算。以下是代码段

def func1(x):
  res_list = []
  for i in x:
    if i
    res_list.append(i)
  pandasdf = pd.DataFrame(res_list,columns=sch)
  <computation>
  <save pandasdf to HDFS>


df = spark.read.csv('/path/')
sch = df.schema.names
rdd = df.rdd.repartition(5)
rdd.foreachPartition(func1)

我正在集群模式下运行它。我想将Pandas数据帧保存为HDFS,我尝试将Pandas数据帧转换为spark数据帧,但是在worker节点中无法转换为spark数据帧。谁能帮我将功能旁边的熊猫数据框保存到HDFS

0 个答案:

没有答案