SQL:如何选择具有最多已知值的行?

时间:2012-04-20 08:48:01

标签: sql postgresql deduplication

我有用户表(用户名,性别,date_of_birth,zip),其中用户的ID是永久性的,但用户可能在过去多次注册,有时他填写所有数据,有时不填写。除此之外,他可以改变居住地(在这种情况下,zip可以改变)。

所以查询

SELECT username, sex, date_birth, zip FROM users_log WHERE username IN('user1', 'user2', 'user3')

返回以下结果:

"user1";"M";"1982-10-04 00:00:00";"6320"
"user2";"";"";"1537"
"user3";"";"";"1537"
"user3";"";"";"1000"
"user3";"";"";"1000"
"user3";"";"1979-05-29 00:00:00";"1000"
"user3";"";"";"1537"
"user3";"";"1979-05-29 00:00:00";"1000"
"user1";"";"";"1000"
"user3";"";"";"1537"

在这种情况下,user1改变了住所;邮政编码改变了;并且“属于”他的第二行不包含人口统计数据。 User3还有多条记录,只有两条记录包含人口统计数据。

我想要做的是将用户绑定到包含最多关于他的数据的行,并考虑包含在具有最多已知值的行中的zip。有谁知道如何编写适当的查询?

谢谢!

2 个答案:

答案 0 :(得分:6)

这会很痛苦;非常痛苦。

您的问题不清楚这个问题,但我假设您所指的'用户ID'是用户名。如果这是错误的话,会有相应的修改。

与任何复杂查询一样,请分阶段构建。

阶段1:每条记录有多少个非空字段?

SELECT username, sex, date_of_birth, zip,
       CASE WHEN sex           IS NULL THEN 0 ELSE 1 END +
       CASE WHEN date_of_birth IS NULL THEN 0 ELSE 1 END +
       CASE WHEN zip           IS NULL THEN 0 ELSE 1 END AS num_non_null_fields
  FROM users_log

阶段2:给定用户名的最大字段数是多少?

SELECT username, MAX(num_non_null_fields) AS num_non_null_fields
  FROM (SELECT username, sex, date_of_birth, zip,
               CASE WHEN sex           IS NULL THEN 0 ELSE 1 END +
               CASE WHEN date_of_birth IS NULL THEN 0 ELSE 1 END +
               CASE WHEN zip           IS NULL THEN 0 ELSE 1 END AS num_non_null_fields
          FROM users_log
       ) AS u
 GROUP BY username

阶段3:为具有最大非空字段数的给定用户选择(全部)行:

SELECT u.username, u.sex, u.date_of_birth, u.zip
  FROM (SELECT username, MAX(num_non_null_fields) AS num_non_null_fields
          FROM (SELECT username, sex, date_of_birth, zip,
                       CASE WHEN sex           IS NULL THEN 0 ELSE 1 END +
                       CASE WHEN date_of_birth IS NULL THEN 0 ELSE 1 END +
                       CASE WHEN zip           IS NULL THEN 0 ELSE 1 END AS num_non_null_fields
                  FROM users_log
               ) AS u
         GROUP BY username
       ) AS v
  JOIN (SELECT username, sex, date_of_birth, zip,
               CASE WHEN sex           IS NULL THEN 0 ELSE 1 END +
               CASE WHEN date_of_birth IS NULL THEN 0 ELSE 1 END +
               CASE WHEN zip           IS NULL THEN 0 ELSE 1 END AS num_non_null_fields
          FROM users_log
       ) AS u
    ON u.username = v.username AND u.num_non_null_fields = v.num_non_null_fields;

现在,如果某人有多行(例如)填写了所有三个字段,那么将返回所有这些行。但是,您没有指定在这些行之间进行选择的任何标准。

这里的基本技术可以适应任何变化的要求。关键是在你去的时候构建和测试子查询。

这个SQL都不在DBMS附近;它可能存在缺陷。

您尚未指定正在使用的DBMS。但是,似乎Oracle不会喜欢用于表别名的AS表示法,尽管它对列别名的AS没有问题。如果您正在使用任何其他DBMS,您不必担心这种轻微的怪癖。

答案 1 :(得分:5)

幸运的是你正在使用PostgreSQL。通过将布尔值转换为整数来计算填充的字段更容易:

SELECT username, 
   ( 
      (sex is not null)::int 
    + (date_birth_birth is not null)::int 
    + (zip is not null)::int
   ) / 3.0 as percent_complete
FROM users_log

您的代码目标与此问题具有相似性:
Postgresql: Calculate rank by number of true OR clauses