我有一个包含非常糟糕数据的表,我正在尝试过滤掉一些数据。我确信LName,FName组合是唯一的,因为数据集足够小以便验证。
LName, FName, Email
----- ----- -----
Smith Bob bsmith@example.com
Smith Bob NULL
Doe Jane NULL
White Don dwhite@example.com
我想让查询结果带回没有NULL电子邮件的“重复”记录,但是当没有重复时仍然会带回NULL电子邮件。
E.g。
Smith Bob bsmith@example.com
Doe Jane NULL
White Don dwhite@example.com
我认为解决方案类似于Sql, remove duplicate rows by value,但我不太明白提问者的要求是否与我的要求相同。
有什么建议吗?
由于
答案 0 :(得分:7)
如果存在任何非空值,则会删除空行。
SELECT lname
, fname
, MIN(email)
FROM YourTable
GROUP BY
lname
, fname
测试脚本
DECLARE @Test TABLE (
LName VARCHAR(32)
, FName VARCHAR(32)
, Email VARCHAR(32)
)
INSERT INTO @Test
SELECT 'Smith', 'Bob', 'bsmith@example.com'
UNION ALL SELECT 'Smith', 'Bob', 'NULL'
UNION ALL SELECT 'Doe', 'Jane', 'NULL'
UNION ALL SELECT 'White', 'Don', 'dwhite@example.com'
SELECT lname
, fname
, MIN(Email)
FROM @Test
GROUP BY
lname
, fname
答案 1 :(得分:7)
您可以使用ROW_NUMBER()分析函数:
SELECT *
FROM (
SELECT a.*, ROW_NUMBER() OVER(PARTITION BY LName, FName ORDER BY Email DESC) rnk
FROM <YOUR_TABLE> a
) a
WHERE RNK = 1
答案 2 :(得分:3)
这是一个使用标准SQL的相对简单的查询,只是这样:
SELECT * FROM Person P
WHERE Email IS NOT NULL OR -- Take all people with non-null e-mails
Email IS NULL AND -- and all people with null e-mails, as long as
NOT EXISTS -- there is no duplicate record of the same person
(SELECT * -- with a non-null e-mail
FROM Person P2
WHERE P2.LName=P.LName AND P2.FName=P.FName AND P2.Email IS NOT NULL)
答案 3 :(得分:1)
由于已经发布了大量SQL解决方案,您可能需要创建数据修复以删除错误数据,然后添加必要的约束以防止插入错误数据。数据库中的错误数据是设计不良的副作用。