我的主查询(COPD)中有一群患者,而我的子查询(CANC)中有另一群患者。我想从主查询结果中排除CANC PAT_ID,但这似乎不起作用并且运行时间太长。有没有更好的方法来排除子查询结果?我尝试了不存在而不是存在但不认为我做得正确,因为应该被排除的患者仍然出现。
SELECT DISTINCT
pe.PAT_ENC_CSN_ID,
pe.PAT_ID,
pe.CONTACT_DATE,
vp.PAT_MRN_ID,
vp.PAT_NAME,
vp.SEX_NAME,
pat.BIRTH_DATE,
vp.AGE_YEARS,
vp.CUR_PCP_NAME
FROM PAT_ENC pe
INNER JOIN V_PAT_FACT vp on pe.PAT_ID=vp.PAT_ID
INNER JOIN PATIENT pat on vp.PAT_ID=pat.PAT_ID
INNER JOIN CLARITY_ADT adt on pe.PAT_ENC_CSN_ID=adt.PAT_ENC_CSN_ID
LEFT OUTER JOIN PAT_ENC_DX dx on pe.PAT_ID=dx.PAT_ID
LEFT OUTER JOIN CLARITY_EDG edg on dx.DX_ID=edg.DX_ID
INNER JOIN GROUPER_COMPILED_RECORDS gcr on edg.DX_ID=gcr.COMPILED_REC_LIST_VALUE
------- EXCLUSION CANCER
LEFT JOIN
(
SELECT DISTINCT pl.PAT_ID
FROM PROBLEM_LIST pl
LEFT OUTER JOIN CLARITY_EDG edg on pl.DX_ID=edg.DX_ID
INNER JOIN GROUPER_COMPILED_RECORDS rec on edg.DX_ID=rec.COMPILED_REC_LIST_VALUE
WHERE rec.GROUPER_ID in ('2100000011')
)cx on pe.PAT_ID=cx.PAT_ID
WHERE pe.CONTACT_DATE > '2016-07-01 00:00:00.000'
AND pe.WEIGHT>= '1587.3' -- 45 kg or more
AND vp.AGE_YEARS BETWEEN '40' AND '80'
AND vp.SEX_C in ('1','2') --FEMALE or MALE
AND adt.PAT_CLASS_C in ('101','103','104') ---IP, OBS or ED
AND vp.IS_VALID_PAT_YN = 'Y' -- NOT TEST
AND pat.PAT_STATUS_C <>'2' --NOT DECEASED
AND cx.PAT_ID IS NULL
答案 0 :(得分:2)
首先:DISTINCT
通常是编写错误查询的指标。很少需要在编写良好的查询中删除结果中的重复项,从而避免首先产生重复项。在主要查询中,您可以从表格PAT_ENC
,V_PAT_FACT
和PATIENT
中选择数据。但是,您也加入了其他四个表,因此可能会复制行。 也许您可以将这些表作为限制行的方法,即您只需要在这些表中具有匹配项的行。但是,那你为什么要尝试将它们加入呢?外连接不代表限制。 (此外,无论如何,你的外连接通过内部连接grouper_compiled_records
成为内部连接。)
关于排除部分:由于上述相同原因,您再次失败了外部联接。您正在使用反连接,这总是有点难以阅读。我不知道为什么NOT EXISTS
和NOT IN
失败了。它们优于反连接,因为它们更容易阅读和理解。
您的查询应该是这样的:
SELECT
pe.pat_enc_csn_id,
pe.pat_id,
pe.contact_date,
vp.pat_mrn_id,
vp.pat_name,
vp.sex_name,
pat.birth_date,
vp.age_years,
vp.cur_pcp_name
FROM pat_enc pe
JOIN v_pat_fact vp ON pe.pat_id = vp.pat_id
JOIN patient pat ON vp.pat_id = pat.pat_id
WHERE pe.pat_enc_csn_id IN
(
SELECT pat_enc_csn_id
FROM clarity_adt
WHERE pat_class_c IN (101, 103, 104) ---IP, OBS or ED
)
AND pe.pat_id IN
(
SELECT dx.pat_id
FROM pat_enc_dx dx
JOIN clarity_edg edg on dx.dx_id = edg.dx_id
JOIN grouper_compiled_records gcr on edg.dx_id = gcr.compiled_rec_list_value
)
AND pe.contact_date > '2016-07-01'
AND pe.weight >= 1587.3 -- 45 kg or more
AND vp.age_years BETWEEN 40 AND 80
AND vp.sex_c IN (1, 2) -- female or male
AND vp.is_valid_pat_yn = 'Y' -- not test
AND pat.pat_status_c <> 2 --not deceased
AND pe.pat_id NOT IN -- exclude cancer patients
(
SELECT pl.pat_id
FROM problem_list pl
JOIN clarity_edg edg ON pl.dx_id = edg.dx_id
JOIN grouper_compiled_records rec ON edg.dx_id = rec.compiled_rec_list_value
WHERE rec.grouper_id = 2100000011
);
(这假定problem_list.pat_id
可以为空,因为列表中的空格会NOT IN
失败。您必须将AND pl.pat_id IS NOT NULL
添加到您的在不太可能的情况下,该列可以为null的子查询。)
但数据模型看起来有点奇怪。由patient
标识的pat_id
似乎可以包含多个pat_enc
和多个v_pat_fact
。但那么为什么你会为每个病人创建他们的所有组合呢?或者是否存在1:1的关系,可能只有v_pat_fact
每patient
个?但为什么要分开表呢?当你知道生日时,为什么要存储一个年龄(每年都会变化)?
我不能确定这正是您所寻求的查询,但它应该接近,您应该能够根据您的需要进行调整。
答案 1 :(得分:1)
您的加入条件没有意义。具体做法是:
FROM PROBLEM_LIST pl
LEFT OUTER JOIN CLARITY_EDG edg on pl.DX_ID=edg.DX_ID
INNER JOIN GROUPER_COMPILED_RECORDS rec on edg.DX_ID=rec.COMPILED_REC_LIST_VALUE
在上面的LEFT JOIN
到CLARITY_EDG
表格中,然后INNER JOIN
到GROUPER_COMPILED_RECORDS
。 INNER JOIN
要求左表和右表中都存在记录,因此将之前的LEFT JOIN
转换为INNER JOIN
。
假设您需要加入中的所有表格,则需要将LEFT JOIN
更改为INNER JOIN
。
主要查询也需要修改。
UPDATE(感谢@ThorstenKettner指出问题):我删除了我的示例查询,因为它没有意义。
DISTINCT
- 对性能产生负面影响,因为SQL Server实际上必须对结果集进行自联接以检查重复项。检查结果,看看你是否真的需要它。如果您确实获得重复项,请找到生成它们的JOIN
并添加更多连接条件。
WHERE
- 指定常量时不匹配的数据类型,例如
AND vp.AGE_YEARS BETWEEN '40' AND '80'
如果您的AGE_YEARS
列为INT
,请确保您的BETWEEN
条件同时指定INT
,例如BETWEEN 40 AND 80
。
如果数据类型不相同,则强制SQL Server进行类型转换,在上面的情况下,它会将整个表列转换为字符串(而不是常量为int)来评估条件。对于大型表,它也不会很快,它也会阻止SQL Server在此列上使用索引(如果有任何创建)。
答案 2 :(得分:0)
因为我没有数据可以检查我是否假设您的左连接(排除连接)是正确的,尽管有一个左连接然后在它之后的内部连接,我改变了它是一个左连接。
SELECT DISTINCT
pe.PAT_ENC_CSN_ID,
pe.PAT_ID,
pe.CONTACT_DATE,
vp.PAT_MRN_ID,
vp.PAT_NAME,
vp.SEX_NAME,
pat.BIRTH_DATE,
vp.AGE_YEARS,
vp.CUR_PCP_NAME
FROM PAT_ENC pe
INNER JOIN V_PAT_FACT vp on pe.PAT_ID=vp.PAT_ID
INNER JOIN PATIENT pat on vp.PAT_ID=pat.PAT_ID
INNER JOIN CLARITY_ADT adt on pe.PAT_ENC_CSN_ID=adt.PAT_ENC_CSN_ID
LEFT OUTER JOIN PAT_ENC_DX dx on pe.PAT_ID=dx.PAT_ID
LEFT OUTER JOIN CLARITY_EDG edg on dx.DX_ID=edg.DX_ID
INNER JOIN GROUPER_COMPILED_RECORDS gcr on edg.DX_ID=gcr.COMPILED_REC_LIST_VALUE
WHERE pe.CONTACT_DATE > '2016-07-01 00:00:00.000'
AND pe.WEIGHT>= '1587.3' -- 45 kg or more
AND vp.AGE_YEARS BETWEEN '40' AND '80'
AND vp.SEX_C in ('1','2') --FEMALE or MALE
AND adt.PAT_CLASS_C in ('101','103','104') ---IP, OBS or ED
AND vp.IS_VALID_PAT_YN = 'Y' -- NOT TEST
AND pat.PAT_STATUS_C <>'2' --NOT DECEASED
------- EXCLUSION CANCER
AND pe.PAT_ID not in
(
SELECT pl.PAT_ID
FROM PROBLEM_LIST pl
LEFT OUTER JOIN CLARITY_EDG edg on pl.DX_ID=edg.DX_ID
LEFT JOIN GROUPER_COMPILED_RECORDS rec on edg.DX_ID=rec.COMPILED_REC_LIST_VALUE
AND rec.GROUPER_ID in ('2100000011')
)