嗨,我是新手,我需要一些帮助!
最初,spark总是给我的json文件(由Java使用OutputStream生成)的损坏记录问题。
在运行一些测试后,我注意到如果我使用某个编辑器编辑json,但是将内容保持不变并保存,则突然火花识别出列并将数据放入其中...
我正在使用数据框
有人知道这里发生了什么吗?
val spark = SparkSession.builder
.appName("tpp")
.master("local[*]")
.config("spark.testing.memory", 2147480000)
.getOrCreate()
spark.sparkContext.setLogLevel("ERROR")
import spark.implicits._
val jsonTest : String = "absolutepath/myjson.json"
val df = spark
.read
.option("multiline", true)
.option("mode", "PERMISSIVE")
.json(jsonTest)
df.printSchema()
df.show()
根 |-_corrupt_record:字符串(nullable = true)
然后,我用编辑器(vs-code)打开json,编辑一些字符,再次写入,保存。
现在Spark会打印模式并填充表列
有什么主意吗?谢谢