标签: validation apache-spark dataframe
我们要求使用Spark 2.2中的Json模式验证avro文件数据 JSON模式的类型为草稿4。
需求是使用同一列上的多个规则(如整数范围,值之间,大于值等)验证行中的每一列,并收集所有错误,或使用json模式验证spark数据框,并在新数据框中收集验证结果。如果有人研究这个问题并提供最佳解决方案,那就太好了。