从Spark数据集删除行级重复项

时间:2018-11-30 10:50:35

标签: java apache-spark pyspark apache-spark-sql apache-spark-dataset

我需要从数据集中删除行级重复项,如果我的数据集非常大,则需要知道dropduplicate()是否是一项昂贵的操作。

如果由于混洗以及后端中发生的所有其他过程而导致操作昂贵,那么删除这些行级重复项的另一种有效方法是什么?

0 个答案:

没有答案