标签: pyspark apache-spark-sql pyspark-sql
我有来自CSV文件的源数据,并且必须对其进行数据质量验证。
初始文件验证
a)标头
b)文件大小
c)时间戳
成功(1)后,必须检查 约束,默认值,最小和最大以及范围值
如果有任何拒绝,我必须写入错误DB。如果拒绝率超过50%,则拒绝整个文件。
请告知。