Question

对不起，但是有人知道我如何删除重复的行以及Google Dataprep中的第一次出现吗？

那么两行（重复的行+ 1.出现）都将被删除吗？

col1，col2

约翰，辛普森

意志，法瑞尔

约翰，辛普森

伊隆，麝香

将是：

col1，col2

意志，法瑞尔

伊隆，麝香

谢谢你们！

Answer 1

完全有可能对大型数据集采用更有效的方法，但我最初的想法是使用分组。

从概念上讲，我在说的是使用分组（联接相同的数据也可以）作为一种方法来识别具有重复的行，然后使用单独的规则将其过滤掉。

以下是基于您的样本数据的概念验证配方之争：

groupby group: col1,col2 value: COUNT() type: flatAgg

filter type: greaterThan col: row_count greaterThan: 1 action: Delete

drop col: row_count action: Drop

（如果您一次将它们粘贴到新的配方步骤中，它将为您创建它们）

在上面请注意，在这种情况下，您不必将参数传递给COUNT() －它只计算每个组中的行数（类似于SQL中的COUNT(*)）。

您还可以看到我正在使用flatAgg类型，该类型对应于“分组依据”步骤中的“分组方式为新列”。在您不想像普通的分组依据那样需要重新指定许多列的情况下（这将创建一个只包含列的新表），这非常有用。为了澄清这一点，此步骤的设置应如下所示：

希望有帮助，而且争吵愉快！

删除重复项+首次出现

1 个答案: