Python 3函数遍历熊猫数据框以更改架构

时间:2020-02-24 18:48:04

标签: python-3.x pandas pyspark apache-spark-sql

我正在将一堆熊猫数据帧转换为spark df,然后写入hdfs。还要明确指定用于将所有数据类型更改为字符串的架构,以避免合并类冲突。

尝试编写一个将遍历所有pandas df列的函数,创建架构,然后可以使用该架构转换为spark。

这是我到目前为止的内容:

def creating_schema(df):
    for columnName in df.columns:
        schema = StructType([(StructField('"' + columnName + '"' , StringType(), True))])
        print(schema)

    return(schema)

这将输出:

StructType(List(StructField("column_1",StringType,true)))
StructType(List(StructField("column_2",StringType,true)))
StructType(List(StructField("column_3",StringType,true)))
StructType(List(StructField("column_4",StringType,true)))
StructType(List(StructField("column_5",StringType,true)))

但是,我相信我需要这种格式的东西才能工作:

schema = StructType([StructField("column_1" , StringType(), True),
                    StructField("column_2" , StringType(), True),
                    StructField("column_3" , StringType(), True),
                    StructField("column_4" , StringType(), True),
                    StructField("column_5" , StringType(), True)
                    ])

任何编写此函数的帮助将有所帮助!

谢谢!

1 个答案:

答案 0 :(得分:1)

尝试:

def creating_schema(df):
    sf = []
    for columnName in df.columns:
        sf.append(StructField(columnName, StringType(), True))
    return StructType(sf)

证明:

pdf = pd.DataFrame(columns=["column_1","column_2","column_3","column_4","column_5"])
schema=creating_schema(pdf)
sdf = sqlContext.createDataFrame(sc.emptyRDD(), schema)
sdf.printSchema()
root
 |-- column_1: string (nullable = true)
 |-- column_2: string (nullable = true)
 |-- column_3: string (nullable = true)
 |-- column_4: string (nullable = true)
 |-- column_5: string (nullable = true)