当我将Spark DataFrame作为Parquet文件写到蔚蓝的数据湖中并将其读回到Databricks时,我并不总是获得具有正确架构的变量。使用pyspark,java和其他工具,似乎存在很多问题,但是我发现很难将其转换为SparkR代码。
在使用SparkR编写镶木地板文件时,如何设置架构?
library(SparkR); library(magrittr)
mtcars %>%
as.DataFrame() %>%
SparkR::coalesce(1L) %>%
write.df("...azure data lake store path", source = "parquet", mode = "overwrite", header = "true")