Pbm:
a)将本地文件读入Panda数据帧,例如PD_DF b)操纵/标记PD_DF并将列添加到数据帧 c)需要使用spark将PD_DF写入HDFS。我该怎么做?
答案 0 :(得分:8)
您可以使用SQLContext
对象来调用createDataFrame
方法,该方法接受输入data
,该输入可以选择是Pandas DataFrame
对象。
答案 1 :(得分:2)
让我们说dataframe
的类型为pandas.core.frame.DataFrame然后在spark 2.1中 - Pyspark我这样做了
rdd_data = spark.createDataFrame(dataframe)\
.rdd
如果您要重命名任何列或只选择几列,请在使用.rdd
之前执行这些列
希望它也适合你。
答案 2 :(得分:0)
我使用Spark 1.6.0。首先将pandas数据帧转换为spark数据帧,然后将数据帧设置为spark rdd
sparkDF = sqlContext.createDataFrame(pandasDF)
sparkRDD = sparkDF.rdd.map(list)
type(sparkRDD)
pyspark.rdd.PipelinedRDD