对不起,但是有人知道我如何删除重复的行以及Google Dataprep中的第一次出现吗?
那么两行(重复的行+ 1.出现)都将被删除吗?
col1,col2
约翰,辛普森
意志,法瑞尔
约翰,辛普森
伊隆,麝香
将是:
col1,col2
意志,法瑞尔
伊隆,麝香
谢谢你们!
答案 0 :(得分:0)
完全有可能对大型数据集采用更有效的方法,但我最初的想法是使用分组。
从概念上讲,我在说的是使用分组(联接相同的数据也可以)作为一种方法来识别具有重复的行,然后使用单独的规则将其过滤掉。
以下是基于您的样本数据的概念验证配方之争:
groupby group: col1,col2 value: COUNT() type: flatAgg
filter type: greaterThan col: row_count greaterThan: 1 action: Delete
drop col: row_count action: Drop
(如果您一次将它们粘贴到新的配方步骤中,它将为您创建它们)
在上面请注意,在这种情况下,您不必将参数传递给COUNT()
-它只计算每个组中的行数(类似于SQL中的COUNT(*)
)。
您还可以看到我正在使用flatAgg
类型,该类型对应于“分组依据”步骤中的“分组方式为新列”。在您不想像普通的分组依据那样需要重新指定许多列的情况下(这将创建一个只包含 列的新表),这非常有用。为了澄清这一点,此步骤的设置应如下所示:
希望有帮助,而且争吵愉快!