在Pyspark中为ETL脚本验证CSV数据

时间:2019-03-21 01:46:33

标签: pyspark apache-spark-sql pyspark-sql

我有来自CSV文件的源数据,并且必须对其进行数据质量验证。

  1. 初始文件验证

    a)标头

    b)文件大小

    c)时间戳

  2. 成功(1)后,必须检查 约束,默认值,最小和最大以及范围值

  3. 如果有任何拒绝,我必须写入错误DB。如果拒绝率超过50%,则拒绝整个文件。

请告知。

0 个答案:

没有答案