我有用户表(用户名,性别,date_of_birth,zip),其中用户的ID是永久性的,但用户可能在过去多次注册,有时他填写所有数据,有时不填写。除此之外,他可以改变居住地(在这种情况下,zip可以改变)。
所以查询
SELECT username, sex, date_birth, zip FROM users_log WHERE username IN('user1', 'user2', 'user3')
返回以下结果:
"user1";"M";"1982-10-04 00:00:00";"6320"
"user2";"";"";"1537"
"user3";"";"";"1537"
"user3";"";"";"1000"
"user3";"";"";"1000"
"user3";"";"1979-05-29 00:00:00";"1000"
"user3";"";"";"1537"
"user3";"";"1979-05-29 00:00:00";"1000"
"user1";"";"";"1000"
"user3";"";"";"1537"
在这种情况下,user1改变了住所;邮政编码改变了;并且“属于”他的第二行不包含人口统计数据。 User3还有多条记录,只有两条记录包含人口统计数据。
我想要做的是将用户绑定到包含最多关于他的数据的行,并考虑包含在具有最多已知值的行中的zip。有谁知道如何编写适当的查询?
谢谢!
答案 0 :(得分:6)
这会很痛苦;非常痛苦。
您的问题不清楚这个问题,但我假设您所指的'用户ID'是用户名。如果这是错误的话,会有相应的修改。
与任何复杂查询一样,请分阶段构建。
阶段1:每条记录有多少个非空字段?
SELECT username, sex, date_of_birth, zip,
CASE WHEN sex IS NULL THEN 0 ELSE 1 END +
CASE WHEN date_of_birth IS NULL THEN 0 ELSE 1 END +
CASE WHEN zip IS NULL THEN 0 ELSE 1 END AS num_non_null_fields
FROM users_log
阶段2:给定用户名的最大字段数是多少?
SELECT username, MAX(num_non_null_fields) AS num_non_null_fields
FROM (SELECT username, sex, date_of_birth, zip,
CASE WHEN sex IS NULL THEN 0 ELSE 1 END +
CASE WHEN date_of_birth IS NULL THEN 0 ELSE 1 END +
CASE WHEN zip IS NULL THEN 0 ELSE 1 END AS num_non_null_fields
FROM users_log
) AS u
GROUP BY username
阶段3:为具有最大非空字段数的给定用户选择(全部)行:
SELECT u.username, u.sex, u.date_of_birth, u.zip
FROM (SELECT username, MAX(num_non_null_fields) AS num_non_null_fields
FROM (SELECT username, sex, date_of_birth, zip,
CASE WHEN sex IS NULL THEN 0 ELSE 1 END +
CASE WHEN date_of_birth IS NULL THEN 0 ELSE 1 END +
CASE WHEN zip IS NULL THEN 0 ELSE 1 END AS num_non_null_fields
FROM users_log
) AS u
GROUP BY username
) AS v
JOIN (SELECT username, sex, date_of_birth, zip,
CASE WHEN sex IS NULL THEN 0 ELSE 1 END +
CASE WHEN date_of_birth IS NULL THEN 0 ELSE 1 END +
CASE WHEN zip IS NULL THEN 0 ELSE 1 END AS num_non_null_fields
FROM users_log
) AS u
ON u.username = v.username AND u.num_non_null_fields = v.num_non_null_fields;
现在,如果某人有多行(例如)填写了所有三个字段,那么将返回所有这些行。但是,您没有指定在这些行之间进行选择的任何标准。
这里的基本技术可以适应任何变化的要求。关键是在你去的时候构建和测试子查询。
这个SQL都不在DBMS附近;它可能存在缺陷。
您尚未指定正在使用的DBMS。但是,似乎Oracle不会喜欢用于表别名的AS表示法,尽管它对列别名的AS没有问题。如果您正在使用任何其他DBMS,您不必担心这种轻微的怪癖。
答案 1 :(得分:5)
幸运的是你正在使用PostgreSQL。通过将布尔值转换为整数来计算填充的字段更容易:
SELECT username,
(
(sex is not null)::int
+ (date_birth_birth is not null)::int
+ (zip is not null)::int
) / 3.0 as percent_complete
FROM users_log
您的代码目标与此问题具有相似性:
Postgresql: Calculate rank by number of true OR clauses