如何在pyspark

时间:2019-03-07 08:04:10

标签: python pyspark pyspark-sql

我有一个文件夹,其中包含SQL文件(用于模式)和压缩文件(CSV文件),我想将具有相同模式的文件读取到一个数据帧中,因此对于不同的模式,pyspark中的数据帧不同。

我的文件夹结构看起来像这样:

abc.sql
abc1.gz
abc2.gz
def.sql
def1.gz
def2.gz

以此类推...

我该怎么办

1 个答案:

答案 0 :(得分:-1)

您只需要添加inferSchema参数并将其设置为True

data = spark.read.csv([DATA_PATH], inferSchema = True, header = True, sep = ";")