删除重复项+首次出现

时间:2019-03-30 03:35:31

标签: google-cloud-dataprep

对不起,但是有人知道我如何删除重复的行以及Google Dataprep中的第一次出现吗?

那么两行(重复的行+ 1.出现)都将被删除吗?

col1,col2

约翰,辛普森

意志,法瑞尔

约翰,辛普森

伊隆,麝香

将是:

col1,col2

意志,法瑞尔

伊隆,麝香

谢谢你们!

1 个答案:

答案 0 :(得分:0)

完全有可能对大型数据集采用更有效的方法,但我最初的想法是使用分组。

从概念上讲,我在说的是使用分组(联接相同的数据也可以)作为一种方法来识别具有重复的行,然后使用单独的规则将其过滤掉。

以下是基于您的样本数据的概念验证配方之争:

groupby group: col1,col2 value: COUNT() type: flatAgg

filter type: greaterThan col: row_count greaterThan: 1 action: Delete

drop col: row_count action: Drop

(如果您一次将它们粘贴到新的配方步骤中,它将为您创建它们)

在上面请注意,在这种情况下,您不必将参数传递给COUNT() -它只计算每个组中的行数(类似于SQL中的COUNT(*))。

您还可以看到我正在使用flatAgg类型,该类型对应于“分组依据”步骤中的“分组方式为新列”。在您不想像普通的分组依据那样需要重新指定许多列的情况下(这将创建一个只包含 列的新表),这非常有用。为了澄清这一点,此步骤的设置应如下所示: Google Cloud Dataprep Group By recipe step showing the flatAgg or "as new columns" grouping type

希望有帮助,而且争吵愉快!