将大json文件拆分成小块,而不会破坏格式

时间:2017-12-02 23:06:53

标签: json scala shell apache-spark databricks

我正在使用spark.read()在databricks上读取一个大的json文件。它失败的原因是:火花驱动器在长时间运行后意外停止并重新启动。我认为这是因为文件太大,所以我决定拆分它。所以我用命令:

split -b 100m -a 1 test.json

这实际上将我的文件拆分成小块,现在我可以在数据库中读取它。但后来我发现我得到的是一组空值。我认为这是因为我只按大小分割文件,有些文件可能会变成不是json格式的文件。例如,我可能会在文件的末尾得到类似的内容。

{"id":aefae3,......

然后它不能被spark.read.format(“json”)读取。那么有什么方法可以将json文件分成小块而不破坏json格式?

0 个答案:

没有答案