SQL:数据清理

时间:2018-01-22 18:03:36

标签: data-cleaning

我遇到了一个我不知道如何分类的问题。所以,请原谅我的通用名称。我有一个数据集,如:

表1:Column1,Column2,Column3。 根据我的业务逻辑,对于一对Column1 Column2',Column3只能有一个唯一值。所以下表是一个有问题的,因为第二个条目:

Table1
Column1  Column2  Column3
A1       B1       R
A1       B1       O   << ERROR! for A1-B1 pair only one value on column3 is accepted
A2       B2       R
A2       B3       J
A3       B3       K
A4       B5       K

从上表我想找到有问题的条目:

A1       B1       R
A1       B1       O

提前感谢您的帮助!

1 个答案:

答案 0 :(得分:2)

使用示例列名称,您可以运行以下查询,以便只查看列3中具有多个值的Column1 / Column2对。

SELECT Column1, Column2, COUNT(DISTINCT Column3) as Column3
FROM Table1
GROUP BY Column1, Column2
HAVING COUNT(DISTINCT Column3) > 1

您可以省略HAVING行以查看Column1 / Column2对的完整列表。