在以下查询中,我正在加入包含45324个项目的样本表。结果只给了我39426,其中没有包含空的SUM,SUM_YIELD或其他......有人能解释为什么LEFT,RIGHT和INNER JOIN给我相同的结果吗?
SELECT
`gs_prod`.`samples`.`id` AS `id`,
`gs_prod`.`samples`.`customer_name` AS `customer_name`,
`qcs_demux_stats_view`.`sample_name` AS `sample_name`,
FORMAT(
SUM(`qcs_demux_stats_view`.`clusters`),
0
) AS `SUM`,
FORMAT(
SUM(`qcs_demux_stats_view`.`yield`),
0
) AS `SUM_YIELD`,
ROUND(
(
SUM(
(
`qcs_demux_stats_view`.`perc_q30` * `qcs_demux_stats_view`.`clusters`
)
) / SUM(`qcs_demux_stats_view`.`clusters`)
),
2
) AS `perc_q30`
FROM
(
`gs_prod`.`qcs_demux_stats_view`
JOIN
`gs_prod`.`samples` ON(
(
`gs_prod`.`samples`.`id` = `qcs_demux_stats_view`.`sample_id`
)
)
)
WHERE
(
`qcs_demux_stats_view`.`parent_id` IN(
SELECT
`gs_prod`.`qcs`.`id`
FROM
`gs_prod`.`qcs`
WHERE
(
(`gs_prod`.`qcs`.`status` = 1) AND(
`gs_prod`.`qcs`.`deleted` = 0
)
)
) AND(
`qcs_demux_stats_view`.`status` = 1
)
)
GROUP BY
`gs_prod`.`samples`.`id`,
`qcs_demux_stats_view`.`sample_name`,
`gs_prod`.`samples`.`customer_name`
所以我得到了这样的结果:
id customer_name sample_name SUM SUM_YIELD perc_q30
41453 103312-001-005-BC105 103312-001-005-BC105 7 0 88.27
41485 103312-001-005-BC137 103312-001-005-BC137 285 0 93.31
41517 103312-001-005-BC169 103312-001-005-BC169 270 0 91.46
但是也想要像(没有来自qcs_demux_stats的数据)那样的行:
41517 103312-001-005-BC169 103312-001-005-BC169 0 0 NaN
左边3列来自samples表,第一列是在ON子句中匹配的id,右边3列是来自qcs_demux_stats表的分组数据。
答案 0 :(得分:3)
WHERE子句中的条件要求qcs_demux_stats_view
中的列为非NULL,这将导致OUTER连接等同于INNER连接。
考虑OUTER联接的作用的一种方式,它是如何运作的......
如果未找到匹配的行,则查询将生成由所有NULL值组成的虚拟行。这个虚拟“匹配”行允许返回行。
如果我们要求虚拟行中的列为非NULL,则将排除该行。这基本上抛弃了所有生成的虚拟行。渲染等效于内连接的结果。
要获得外部联接结果,请执行以下操作:
更改WHERE子句中的条件以允许返回NULL值
或
将这些条件重定位到OUTER join的ON子句
我建议将驱动表放在左侧,并将查询写为LEFT
外连接。 (最好将RIGHT
外部联接作为学术练习。)
SELECT s.`id` AS `id`
, s.`customer_name` AS `customer_name`
, v.`sample_name` AS `sample_name`
, FORMAT( SUM(v.`clusters`) ,0) AS `SUM`
, FORMAT( SUM(v.`yield`) ,0) AS `SUM_YIELD`
, ROUND( SUM( v.`perc_q30` * v.`clusters` )
/ SUM( v.`clusters` )
,2
) AS `perc_q30`
FROM `gs_prod`.`samples` s
LEFT
JOIN `gs_prod`.`qcs_demux_stats_view` v
ON v.`sample_id` = s.`id`
AND v.`parent_id` IN ( SELECT q.`id`
FROM `gs_prod`.`qcs` q
WHERE q.`status` = 1
AND q.`deleted` = 0
)
AND v.`status` = 1
GROUP
BY s.`id`
, v.`sample_name`
, s.`customer_name`
这实际上是说,从samples
获取所有行,以及来自qcs_demux_stats_view
的所有匹配行。
如果在qcs_demux_stats_view
中找到mo匹配行,则从samples
(左侧的驱动表)返回行。对于这些行,qcs_demux_stats_view
列的值将为NULL。