我从Blob存储导入了一个JSON文件,大小约为50GB。
dsm_temperature_df = spark.read.json(file_location, multiLine=True)
在导入Databricks spark数据框(大约需要40分钟)之后,我想用df.head()
显示第一行。不幸的是,这需要永远。我让它运行了60分钟,但随后我停止了它。我在这里做错什么了吗?
PS:我发现对于一个较小的json文件(包含大约1GB),执行df.head()
或df.first()
方法要花费2分钟以上的时间。对于50GB的json,这意味着要花100多分钟才能获得第一行。这不是真的吗?
答案 0 :(得分:0)
问题出在之前的代码中。数据转换错误,因此数据框损坏。