考虑我的dataframe
包含以下数据
val seq = Seq((1, "John"), (1, "John"), (2, "Michael"), (3, "Sham"),(4, "Dan"), (2, "Michael"), (4, "Dan"))
val rdd = sc.parallelize(seq)
val df = rdd.toDF("id","name")
我希望output
为:
1,“约翰”
2,“迈克尔”
3,“假”
4,“丹”
select
如何row
dataset
column
来自{{1}},同时允许重复ID {1}}。
答案 0 :(得分:0)
您可以在dataframe / dataset上使用dropDuplicates()。
答案 1 :(得分:0)
您可能正在从数据框中寻找不同的值。
df.distinct.orderBy("id").show();
如果不想要排序结果,您可以删除订单。
+---+-------+
| id| name|
+---+-------+
| 1| John|
| 2|Michael|
| 3| Sham|
| 4| Dan|
+---+-------+