Spark DataFrame处理损坏的记录

时间:2018-11-20 04:14:50

标签: apache-spark hadoop apache-spark-sql

在spark dataFrame中,如何处理损坏的记录?实际上,我正在寻找损坏的记录,该记录应该保留到另一个文件中以供以后查看。模式-DROPMALFORMED选项将从数据集中删除损坏的记录。它会有所帮助。

val data = sparkSession.read
                       .option("mode", "DROPMALFORMED")
                       .json("file:///C:/finances.json")

1 个答案:

答案 0 :(得分:0)

如果您要保留corrupted条记录,则可以将其过滤到另一个数据框中,然后将其写入文件中。

这里的问题是使用PERMISSIVE(默认)和 DROPMALFORMED模式,因为它会删除您希望捕获的损坏记录。

  

权限:尝试解析所有行:为缺少的令牌插入空值,并忽略多余的令牌。

然后,根据您的腐败条款,可以为null值过滤行。