应用错误收集

从Spark数据集删除行级重复项

时间：2018-11-30 10:50:35

标签： java apache-spark pyspark apache-spark-sql apache-spark-dataset

我需要从数据集中删除行级重复项，如果我的数据集非常大，则需要知道dropduplicate()是否是一项昂贵的操作。

如果由于混洗以及后端中发生的所有其他过程而导致操作昂贵，那么删除这些行级重复项的另一种有效方法是什么？

0 个答案:

没有答案