在spark dataFrame中,如何处理损坏的记录?实际上,我正在寻找损坏的记录,该记录应该保留到另一个文件中以供以后查看。模式-DROPMALFORMED
选项将从数据集中删除损坏的记录。它会有所帮助。
val data = sparkSession.read
.option("mode", "DROPMALFORMED")
.json("file:///C:/finances.json")
答案 0 :(得分:0)
如果您要保留corrupted
条记录,则可以将其过滤到另一个数据框中,然后将其写入文件中。
这里的问题是使用PERMISSIVE(默认)和不 DROPMALFORMED模式,因为它会删除您希望捕获的损坏记录。
权限:尝试解析所有行:为缺少的令牌插入空值,并忽略多余的令牌。
然后,根据您的腐败条款,可以为null
值过滤行。