我正在使用dataset.write.jdbc
方法将大数据集写入数据库(DB2)。我看到,如果其中一条记录在插入数据库时出现问题,则整个数据集都会失败。由于数据集是通过运行巨大的管道来准备的,因此结果很昂贵。为了使持久性失败而重新运行整个管道是没有意义的。
答案 0 :(得分:0)
问题似乎比异常处理大得多。理想情况下,数据管道必须以这样的方式设计,即在处理/转换数据之前应对数据进行验证。在一般情况下,这称为数据验证和清理。在此阶段,您可能需要识别NULL /空值并相应地对其进行处理。特别是参与联接的属性或参与查找的属性。您需要对它们进行转换,以便它们不会在管道的后续步骤中产生问题。事实上,这几乎适用于每次转型。希望这会有所帮助。