Question

我是Spark Java API的新手。我有一个像这样的数据集：Ds1

|  account|    Lib     |  amount1 |  amount2   |
+---------+------------+----------+-------------
| 222222  |            |          |            |
| 333333  |            |          |            |
| 888888  |            |          |            |
| 888888  |

我想获取此数据集：Ds2

|  account|    Lib     |  amount1 |  amount2   |
+---------+------------+----------+-------------
| 222222  |            |          |            |
| 333333  |            |          |            |
| 888888  |            |          |            |

有人可以指导我使用Spark Java API编写一个简单的表达式吗？预先感谢。

Answer 1

数据集yourDS2 = yourDS1.dropDuplicates（）;

OR

数据集yourDS2 = yourDS1.dropDuplicates（“ account”）;

Answer 2

请在ds1数据集的顶部使用dropduplicates方法

使用Spark Java API进行数据集操作？

2 个答案: