我是Spark Java API的新手。 我有一个像这样的数据集:Ds1
| account| Lib | amount1 | amount2 |
+---------+------------+----------+-------------
| 222222 | | | |
| 333333 | | | |
| 888888 | | | |
| 888888 |
我想获取此数据集:Ds2
| account| Lib | amount1 | amount2 |
+---------+------------+----------+-------------
| 222222 | | | |
| 333333 | | | |
| 888888 | | | |
有人可以指导我使用Spark Java API编写一个简单的表达式吗? 预先感谢。
答案 0 :(得分:1)
数据集yourDS2 = yourDS1.dropDuplicates();
OR
数据集yourDS2 = yourDS1.dropDuplicates(“ account”);
答案 1 :(得分:0)
请在ds1数据集的顶部使用dropduplicates方法