应用错误收集

我正在使用spark.read（）在databricks上读取一个大的json文件。它失败的原因是：火花驱动器在长时间运行后意外停止并重新启动。我认为这是因为文件太大，所以我决定拆分它。所以我用命令：

split -b 100m -a 1 test.json

这实际上将我的文件拆分成小块，现在我可以在数据库中读取它。但后来我发现我得到的是一组空值。我认为这是因为我只按大小分割文件，有些文件可能会变成不是json格式的文件。例如，我可能会在文件的末尾得到类似的内容。

{"id":aefae3,......

然后它不能被spark.read.format（“json”）读取。那么有什么方法可以将json文件分成小块而不破坏json格式？