我想存储或收集过滤后的数据,即未通过验证的jsons到hdfs或hbase。
dstream.filter { data => VitalValidator.isVitalJSONValid(data) }
其中dstream是DStream [String], isVitalJSONValid 接受字符串并返回布尔值
答案 0 :(得分:0)
我会用Scala做这样的事情。
def isVitalJSONValid(data: String): Boolean = {
var isValid = false
//peroforms some validation
if(data.equals("some/validation")){
isValid = true
}
!isValid
}
//existing goes on here
dstream.filter(data => isVitalJSONValid(data)).saveAsHadoopFiles("file_prefix")