我正在与Pyspark合作,并将数据帧作为文本文件存储在HDFS中,如下所示:
df.rdd.repartition(1).saveAsTextFile(path)
文件已成功创建,但内容格式如下:
Row(APP_PRESS=0.8322056773315432, LINE_PRESS=0.0, POSITION=324.17885120541024, SH_SP=-1.610030115550595, TEMP=24.300001144400007, TRIGGER=4.0869775365401934e-19, V_IND=98.36323547359974)
Row(APP_PRESS=0.8025359920151738, LINE_PRESS=0.0, POSITION=324.12892475616513, SH_SP=1.8780468896210554, TEMP=24.300001144399893, TRIGGER=-1.7645281682240943e-19, V_IND=98.36323547359977)
...
现在,我想要做的是在Pyspark中的数据框中加载这些数据,只是为了获得与之前保存的数据帧相同的数据框(' df')。
我该怎么做?
答案 0 :(得分:2)
尝试这样的事情:
df=sc.textFile(...).toDF()
但是你可以通过修改上面的代码来避免这一步:
df.rdd.repartition(1).toDF()
然后保存。