使用Apache Spark和Scala解析JSON数据

时间:2017-03-03 08:56:02

标签: scala apache-spark apache-spark-sql

Click here to see Image

我有这种类型的文件,其中每行都是一个JSON对象,除了前几个单词(参见附图)。我想使用Spark和Scala解析这种类型的文件。我已经尝试使用sqlContext.read.json(“路径到json文件”),但它给了我错误(损坏的数据),因为整个数据不是JSON对象。如何将此JSON文件解析为SQL数据框?

1 个答案:

答案 0 :(得分:1)

试试这个:

val rawRdd = sc.textFile("path-to-the-file")
val jsonRdd = rawRdd.map(_.substring(32)) //32 - number of first characters to ignore

val df = spark.read.json(jsonRdd)