Question

在spark dataFrame中，如何处理损坏的记录？实际上，我正在寻找损坏的记录，该记录应该保留到另一个文件中以供以后查看。模式-DROPMALFORMED选项将从数据集中删除损坏的记录。它会有所帮助。

val data = sparkSession.read
                       .option("mode", "DROPMALFORMED")
                       .json("file:///C:/finances.json")

Answer 1

如果您要保留corrupted条记录，则可以将其过滤到另一个数据框中，然后将其写入文件中。

这里的问题是使用PERMISSIVE（默认）和不 DROPMALFORMED模式，因为它会删除您希望捕获的损坏记录。

权限：尝试解析所有行：为缺少的令牌插入空值，并忽略多余的令牌。

然后，根据您的腐败条款，可以为null值过滤行。