我正在处理具有一些重复行的数据集。行不是直的重复,但是时间戳小于一秒。我想删除这些副本,但问题是如何。
我目前的计划是添加两个新列,这些列是时间戳列的副本,但是其中一列添加了第二列,另一列则从中删除了第二列。然后我可以添加步骤来删除所有其他值相同的行,但是时间戳加上一个或减一个时间戳。一个接一个地做一个应该消除重复但不删除真正唯一的行。
如何在Power Query中完成此操作?
答案 0 :(得分:2)
我认为您的“当前计划”方法很好 - 我会在单独的查询中应用它,从原始的“引用”开始 - 我称之为非重复时间戳。
我会复制原始时间戳列,然后添加新的+/- 1分钟列。我会在3个添加的时间戳列上使用仅显示未选择的列,将它们从列转换为行。然后,我会选择生成的值列并应用保留重复项。这将保留3个时间戳中找到的任何重复的第一行。
然后回到原始查询中,我会添加合并查询步骤,将其连接到非重复时间戳查询。我会在原始时间戳列上匹配,如果需要,可能在其他列上匹配。 加入种类将是左反(仅在第一行中)。这应该删除你的重复。