我正在使用spark.read()在databricks上读取一个大的json文件。它失败的原因是:火花驱动器在长时间运行后意外停止并重新启动。我认为这是因为文件太大,所以我决定拆分它。所以我用命令:
split -b 100m -a 1 test.json
这实际上将我的文件拆分成小块,现在我可以在数据库中读取它。但后来我发现我得到的是一组空值。我认为这是因为我只按大小分割文件,有些文件可能会变成不是json格式的文件。例如,我可能会在文件的末尾得到类似的内容。
{"id":aefae3,......
然后它不能被spark.read.format(“json”)读取。那么有什么方法可以将json文件分成小块而不破坏json格式?