我在databricks上将行方式JSON数据加载到Apache Spark中,并将其存储在日期分区文件中。
我可以导入整整一个月没有任何问题,但是想要导入这些数据以每天附加更新,所以我写入按日期分区的镶木地板,每天创建一个新的日期文件夹。
这通常可以正常工作,但我最近遇到了一个问题,即新文件被解释为略有不同的架构,导致一些冲突。
所以我尝试做以下事情:
schema = spark.read.format('parquet').load(parquet_path).schema
df = spark.read.json(json_path, schema=schema)
操作成功,但将'null'加载到数据框df
的每一列中。
即使在读取我用来创建架构的完全相同的数据文件时,我也能够复制它。
我很遗憾我做错了什么。