为什么两个RDD的交集无法正常工作

时间:2018-10-09 12:00:58

标签: java apache-spark rdd

我有两个自定义类RDD,我知道它们有一些交集,但是当我使用交集方法时,什么也没有返回。为什么会发生这种情况,我该如何解决?我想念什么吗?这是我所做的:

List <Person> p = new ArrayList<> ();
p.add(new Person(1,"hh","a@b.com","Male"));
p.add(new Person(2,"hh","a@b.com","Male"));

JavaRDD<Person> person1 = sc.parallelize(p);
JavaRDD<Person> person2 = sc.parallelize(p);
System.out.println(person1.intersection(person2).count()); //returns 0.

1 个答案:

答案 0 :(得分:3)

您应该为Person类实现equals和哈希代码。