如何使用java使用List过滤JavaRDD

时间:2017-12-14 20:32:00

标签: java apache-spark

我有一个带有一些json文档的JavaRDD,我想根据ArrayList中的ID列表过滤JavaRDD,基本上想要获取JavaRDD中具有ArrayList中ID的所有文档。我知道这可以在DataSet上轻松完成,但不确定如何使用JavaRDD

1 个答案:

答案 0 :(得分:0)

javaRdd.filter(json -> arrayList.contains(json.get("id")))

这是一个高级代码段,json存储在您的RDD的每一行中(我不知道那里有什么样的结构以及JSON是怎样的代表),arrayList是您的ID列表,json.get("id")只是表示从您的JSON获取ID的一些方式 - 再次,没有更多信息它很难更具体的