得到两个rdd之间的公地

时间:2018-04-17 01:28:36

标签: java apache-spark

我是新手,我正在用java编写火花。从数据库中读取后,我有两个RDD&#p>

ReadConfig readConfig = ReadConfig.create(sc).withOption("p", p);    
JavaRDD<Document> rdd1 = MongoSpark.load(sc, readConfig).persist(StorageLevel.MEMORY_ONLY()).repartition(80);

ReadConfig readConfig1 = ReadConfig.create(sc).withOption("p", p);
JavaRDD<Document> rdd2 = MongoSpark.load(sc, readConfig1).persist(StorageLevel.MEMORY_ONLY()).repartition(80);  

RDD1 is JavaRDD<String> phonenumbers 
RDD2 is JavaRDD<String> phonenumbers2

我想获得所有phonenumbers的phonenumbers2。我使用了rdd1.subtract(rdd2),但这似乎不起作用。

我如何获得rdd1中的rdd2列表。

1 个答案:

答案 0 :(得分:0)

您所需要的只是java intersection

rdd1.intersection(rdd2)