在PySpark中重用模式

时间:2018-02-26 14:38:21

标签: apache-spark pyspark apache-spark-sql

我在databricks上将行方式JSON数据加载到Apache Spark中,并将其存储在日期分区文件中。

我可以导入整整一个月没有任何问题,但是想要导入这些数据以每天附加更新,所以我写入按日期分区的镶木地板,每天创建一个新的日期文件夹。

这通常可以正常工作,但我最近遇到了一个问题,即新文件被解释为略有不同的架构,导致一些冲突。

所以我尝试做以下事情:

schema = spark.read.format('parquet').load(parquet_path).schema
df = spark.read.json(json_path, schema=schema)

操作成功,但将'null'加载到数据框df的每一列中。

即使在读取我用来创建架构的完全相同的数据文件时,我也能够复制它。

我很遗憾我做错了什么。

0 个答案:

没有答案