使用Spark Java API进行数据集操作?

时间:2018-06-20 10:20:33

标签: java apache-spark

我是Spark Java API的新手。 我有一个像这样的数据集:Ds1

|  account|    Lib     |  amount1 |  amount2   |
+---------+------------+----------+-------------
| 222222  |            |          |            |
| 333333  |            |          |            |
| 888888  |            |          |            |
| 888888  | 

我想获取此数据集:Ds2

|  account|    Lib     |  amount1 |  amount2   |
+---------+------------+----------+-------------
| 222222  |            |          |            |
| 333333  |            |          |            |
| 888888  |            |          |            |

有人可以指导我使用Spark Java API编写一个简单的表达式吗? 预先感谢。

2 个答案:

答案 0 :(得分:1)

数据集yourDS2 = yourDS1.dropDuplicates();

OR

数据集yourDS2 = yourDS1.dropDuplicates(“ account”);

答案 1 :(得分:0)

请在ds1数据集的顶部使用dropduplicates方法