如何使用架构文件在Spark Scala中读取JSON

时间:2019-02-19 15:02:04

标签: scala apache-spark apache-spark-sql spark-streaming

我已经从多个json生成了架构文件,并将其存储在Hdfs中。 如何读取生成的模式文件,以便将其他json文件映射到spark数据框中的相同模式。

val schemaDf = spark.read.option("multiLine", "true").json("hdfs:///data/jsonFile/*.json").schema

val hdfs = FileSystem.get(spark.sparkContext.hadoopConfiguration)
val hdfsPath = new Path("/data//data/schemas/filename")
val fileOutStream = hdfs.create(hdfsPath, true)
val objOutStream = new ObjectOutputStream(fileOutStream)
objOutStream.writeObject(schemaDf)
objOutStream.close()
fileOutStream.close()

我想做这样的事情

val mappedSchemaDF = spark.read.option("multiLine", "true").schema(schemaDf).json("OtherFiles.json")
val df = mappedSchemaDF.select($"data.column")

0 个答案:

没有答案