我有一个文件夹,其中包含SQL文件(用于模式)和压缩文件(CSV文件),我想将具有相同模式的文件读取到一个数据帧中,因此对于不同的模式,pyspark
中的数据帧不同。
我的文件夹结构看起来像这样:
abc.sql
abc1.gz
abc2.gz
def.sql
def1.gz
def2.gz
以此类推...
我该怎么办
答案 0 :(得分:-1)
您只需要添加inferSchema
参数并将其设置为True
:
data = spark.read.csv([DATA_PATH], inferSchema = True, header = True, sep = ";")