Question

我有一个文件夹，其中包含SQL文件（用于模式）和压缩文件（CSV文件），我想将具有相同模式的文件读取到一个数据帧中，因此对于不同的模式，pyspark中的数据帧不同。

我的文件夹结构看起来像这样：

abc.sql
abc1.gz
abc2.gz
def.sql
def1.gz
def2.gz

以此类推...

我该怎么办

Answer 1

您只需要添加inferSchema参数并将其设置为True：

data = spark.read.csv([DATA_PATH], inferSchema = True, header = True, sep = ";")