为什么Spark无法识别java OutputSteam创建的json文件?

时间:2019-05-29 08:23:22

标签: apache-spark apache-spark-sql

嗨,我是新手,我需要一些帮助!

最初,spark总是给我的json文件(由Java使用OutputStream生成)的损坏记录问题。

在运行一些测试后,我注意到如果我使用某个编辑器编辑json,但是将内容保持不变并保存,则突然火花识别出列并将数据放入其中...

我正在使用数据框

有人知道这里发生了什么吗?

val spark = SparkSession.builder
        .appName("tpp")
        .master("local[*]")
        .config("spark.testing.memory", 2147480000)
        .getOrCreate()

    spark.sparkContext.setLogLevel("ERROR")


import spark.implicits._

val jsonTest : String = "absolutepath/myjson.json"

val df = spark
            .read
            .option("multiline", true)
            .option("mode", "PERMISSIVE")
            .json(jsonTest)

     df.printSchema() 

df.show()

根  |-_corrupt_record:字符串(nullable = true)

然后,我用编辑器(vs-code)打开json,编辑一些字符,再次写入,保存。

现在Spark会打印模式并填充表列

有什么主意吗?谢谢

0 个答案:

没有答案