如何在Spark过滤器功能中收集或存储过滤掉的jsons

时间:2016-10-26 14:08:06

标签: apache-spark hbase hdfs spark-streaming

我想存储或收集过滤后的数据,即未通过验证的jsons到hdfs或hbase。

dstream.filter { data => VitalValidator.isVitalJSONValid(data) }

其中dstream是DStream [String], isVitalJSONValid 接受字符串并返回布尔值

1 个答案:

答案 0 :(得分:0)

我会用Scala做这样的事情。

def isVitalJSONValid(data: String): Boolean = {
  var isValid = false

  //peroforms some validation 
  if(data.equals("some/validation")){
    isValid = true
  }
  !isValid
}


//existing goes on here
dstream.filter(data => isVitalJSONValid(data)).saveAsHadoopFiles("file_prefix")

Output operations on dstreams