从主查询

时间:2017-07-12 19:58:37

标签: sql sql-server sql-server-2017

我的主查询(COPD)中有一群患者,而我的子查询(CANC)中有另一群患者。我想从主查询结果中排除CANC PAT_ID,但这似乎不起作用并且运行时间太长。有没有更好的方法来排除子查询结果?我尝试了不存在而不是存在但不认为我做得正确,因为应该被排除的患者仍然出现。

SELECT DISTINCT 
        pe.PAT_ENC_CSN_ID,
        pe.PAT_ID,
        pe.CONTACT_DATE,
        vp.PAT_MRN_ID,
        vp.PAT_NAME,
        vp.SEX_NAME,
        pat.BIRTH_DATE,
        vp.AGE_YEARS,
        vp.CUR_PCP_NAME
FROM PAT_ENC pe
    INNER JOIN V_PAT_FACT vp on pe.PAT_ID=vp.PAT_ID
    INNER JOIN PATIENT pat on vp.PAT_ID=pat.PAT_ID
    INNER JOIN CLARITY_ADT adt on pe.PAT_ENC_CSN_ID=adt.PAT_ENC_CSN_ID
    LEFT OUTER JOIN PAT_ENC_DX dx on pe.PAT_ID=dx.PAT_ID
    LEFT OUTER JOIN CLARITY_EDG edg on dx.DX_ID=edg.DX_ID
    INNER JOIN GROUPER_COMPILED_RECORDS gcr on edg.DX_ID=gcr.COMPILED_REC_LIST_VALUE

------- EXCLUSION CANCER
LEFT JOIN
    (
SELECT DISTINCT pl.PAT_ID
    FROM PROBLEM_LIST pl
        LEFT OUTER JOIN CLARITY_EDG edg on pl.DX_ID=edg.DX_ID
        INNER JOIN GROUPER_COMPILED_RECORDS rec on edg.DX_ID=rec.COMPILED_REC_LIST_VALUE
    WHERE rec.GROUPER_ID in ('2100000011')
    )cx on pe.PAT_ID=cx.PAT_ID

WHERE pe.CONTACT_DATE > '2016-07-01 00:00:00.000' 
    AND pe.WEIGHT>= '1587.3'  -- 45 kg or more
    AND vp.AGE_YEARS BETWEEN '40' AND '80'  
    AND vp.SEX_C in ('1','2') --FEMALE or MALE
    AND adt.PAT_CLASS_C in ('101','103','104')  ---IP, OBS or ED
    AND vp.IS_VALID_PAT_YN = 'Y'  -- NOT TEST
    AND pat.PAT_STATUS_C <>'2' --NOT DECEASED
    AND cx.PAT_ID IS NULL

3 个答案:

答案 0 :(得分:2)

首先:DISTINCT通常是编写错误查询的指标。很少需要在编写良好的查询中删除结果中的重复项,从而避免首先产生重复项。在主要查询中,您可以从表格PAT_ENCV_PAT_FACTPATIENT中选择数据。但是,您也加入了其他四个表,因此可能会复制行。 也许您可以将这些表作为限制行的方法,即您只需要在这些表中具有匹配项的行。但是,那你为什么要尝试将它们加入呢?外连接不代表限制。 (此外,无论如何,你的外连接通过内部连接grouper_compiled_records成为内部连接。)

关于排除部分:由于上述相同原因,您再次失败了外部联接。您正在使用反连接,这总是有点难以阅读。我不知道为什么NOT EXISTSNOT IN失败了。它们优于反连接,因为它们更容易阅读和理解。

您的查询应该是这样的:

SELECT
  pe.pat_enc_csn_id,
  pe.pat_id,
  pe.contact_date,
  vp.pat_mrn_id,
  vp.pat_name,
  vp.sex_name,
  pat.birth_date,
  vp.age_years,
  vp.cur_pcp_name
FROM pat_enc pe
JOIN v_pat_fact vp ON pe.pat_id = vp.pat_id
JOIN patient pat ON vp.pat_id = pat.pat_id
WHERE pe.pat_enc_csn_id IN 
(
  SELECT pat_enc_csn_id 
  FROM clarity_adt
  WHERE pat_class_c IN (101, 103, 104) ---IP, OBS or ED
)
AND pe.pat_id IN
(
  SELECT dx.pat_id
  FROM pat_enc_dx dx 
  JOIN clarity_edg edg on dx.dx_id = edg.dx_id
  JOIN grouper_compiled_records gcr on edg.dx_id = gcr.compiled_rec_list_value
)
AND pe.contact_date > '2016-07-01' 
AND pe.weight >= 1587.3  -- 45 kg or more
AND vp.age_years BETWEEN 40 AND 80
AND vp.sex_c IN (1, 2) -- female or male
AND vp.is_valid_pat_yn = 'Y'  -- not test
AND pat.pat_status_c <> 2 --not deceased
AND pe.pat_id NOT IN -- exclude cancer patients
(
  SELECT pl.pat_id
  FROM problem_list pl
  JOIN clarity_edg edg ON pl.dx_id = edg.dx_id
  JOIN grouper_compiled_records rec ON edg.dx_id = rec.compiled_rec_list_value
  WHERE rec.grouper_id = 2100000011
);

(这假定problem_list.pat_id可以为空,因为列表中的空格会NOT IN失败。您必须将AND pl.pat_id IS NOT NULL添加到您的在不太可能的情况下,该列可以为null的子查询。)

但数据模型看起来有点奇怪。由patient标识的pat_id似乎可以包含多个pat_enc和多个v_pat_fact。但那么为什么你会为每个病人创建他们的所有组合呢?或者是否存在1:1的关系,可能只有v_pat_factpatient个?但为什么要分开表呢?当你知道生日时,为什么要存储一个年龄(每年都会变化)?

我不能确定这正是您所寻求的查询,但它应该接近,您应该能够根据您的需要进行调整。

答案 1 :(得分:1)

加入条件

您的加入条件没有意义。具体做法是:

FROM PROBLEM_LIST pl
        LEFT OUTER JOIN CLARITY_EDG edg on pl.DX_ID=edg.DX_ID
        INNER JOIN GROUPER_COMPILED_RECORDS rec on edg.DX_ID=rec.COMPILED_REC_LIST_VALUE

在上面的LEFT JOINCLARITY_EDG表格中,然后INNER JOINGROUPER_COMPILED_RECORDSINNER JOIN要求左表和右表中都存在记录,因此将之前的LEFT JOIN转换为INNER JOIN

假设您需要加入中的所有表格,则需要将LEFT JOIN更改为INNER JOIN

主要查询也需要修改。

UPDATE(感谢@ThorstenKettner指出问题):我删除了我的示例查询,因为它没有意义。

查询效果

DISTINCT - 对性能产生负面影响,因为SQL Server实际上必须对结果集进行自联接以检查重复项。检查结果,看看你是否真的需要它。如果您确实获得重复项,请找到生成它们的JOIN并添加更多连接条件。

WHERE - 指定常量时不匹配的数据类型,例如  AND vp.AGE_YEARS BETWEEN '40' AND '80' 如果您的AGE_YEARS列为INT,请确保您的BETWEEN条件同时指定INT,例如BETWEEN 40 AND 80。 如果数据类型不相同,则强制SQL Server进行类型转换,在上面的情况下,它会将整个表列转换为字符串(而不是常量为int)来评估条件。对于大型表,它也不会很快,它也会阻止SQL Server在此列上使用索引(如果有任何创建)。

答案 2 :(得分:0)

因为我没有数据可以检查我是否假设您的左连接(排除连接)是正确的,尽管有一个左连接然后在它之后的内部连接,我改变了它是一个左连接。

   SELECT DISTINCT 
            pe.PAT_ENC_CSN_ID,
            pe.PAT_ID,
            pe.CONTACT_DATE,
            vp.PAT_MRN_ID,
            vp.PAT_NAME,
            vp.SEX_NAME,
            pat.BIRTH_DATE,
            vp.AGE_YEARS,
            vp.CUR_PCP_NAME
    FROM PAT_ENC pe
        INNER JOIN V_PAT_FACT vp on pe.PAT_ID=vp.PAT_ID
        INNER JOIN PATIENT pat on vp.PAT_ID=pat.PAT_ID
        INNER JOIN CLARITY_ADT adt on pe.PAT_ENC_CSN_ID=adt.PAT_ENC_CSN_ID
        LEFT OUTER JOIN PAT_ENC_DX dx on pe.PAT_ID=dx.PAT_ID
        LEFT OUTER JOIN CLARITY_EDG edg on dx.DX_ID=edg.DX_ID
        INNER JOIN GROUPER_COMPILED_RECORDS gcr on edg.DX_ID=gcr.COMPILED_REC_LIST_VALUE

    WHERE pe.CONTACT_DATE > '2016-07-01 00:00:00.000' 
        AND pe.WEIGHT>= '1587.3'  -- 45 kg or more
        AND vp.AGE_YEARS BETWEEN '40' AND '80'  
        AND vp.SEX_C in ('1','2') --FEMALE or MALE
        AND adt.PAT_CLASS_C in ('101','103','104')  ---IP, OBS or ED
        AND vp.IS_VALID_PAT_YN = 'Y'  -- NOT TEST
        AND pat.PAT_STATUS_C <>'2' --NOT DECEASED
        ------- EXCLUSION CANCER
        AND pe.PAT_ID not in 
                                (
                                SELECT  pl.PAT_ID
                                FROM PROBLEM_LIST pl
                                    LEFT OUTER JOIN CLARITY_EDG edg on pl.DX_ID=edg.DX_ID
                                    LEFT JOIN GROUPER_COMPILED_RECORDS rec on edg.DX_ID=rec.COMPILED_REC_LIST_VALUE 
                                              AND rec.GROUPER_ID in ('2100000011')
                                )