我已经从多个json生成了架构文件,并将其存储在Hdfs中。 如何读取生成的模式文件,以便将其他json文件映射到spark数据框中的相同模式。
val schemaDf = spark.read.option("multiLine", "true").json("hdfs:///data/jsonFile/*.json").schema
val hdfs = FileSystem.get(spark.sparkContext.hadoopConfiguration)
val hdfsPath = new Path("/data//data/schemas/filename")
val fileOutStream = hdfs.create(hdfsPath, true)
val objOutStream = new ObjectOutputStream(fileOutStream)
objOutStream.writeObject(schemaDf)
objOutStream.close()
fileOutStream.close()
我想做这样的事情
val mappedSchemaDF = spark.read.option("multiLine", "true").schema(schemaDf).json("OtherFiles.json")
val df = mappedSchemaDF.select($"data.column")