MySQL LEFT加入显示不正确的数据

时间:2012-07-17 15:36:15

标签: mysql left-join inner-join

我有5张表,结构相同。只有PAGEVISITS字段是唯一的

即。表1:

ITEM |   PAGEVISITS   |  Commodity
1813       50            Griddle
1851       10            Griddle
11875      100           Refrigerator
2255       25            Refrigerator

即。表2:

ITEM |   PAGEVISITS   |  Commodity
1813       0             Griddle
1851       10            Griddle
11875      25            Refrigerator
2255       10            Refrigerator

我希望它将Commodity加起来吐出来:

table1   |   table2   |  Commodity
60           10          Griddle
125          35          Refrigerator

有些数据实际上是正确的,但有些数据在下面的查询中是关闭的:

SELECT
SUM(MT.PAGEVISITS) as table1,
SUM(CT1.PAGEVISITS) as table2,
SUM(CT2.PAGEVISITS) as table3,
SUM(CT3.PAGEVISITS) as table4,
SUM(CT4.PAGEVISITS) as table5,
(COUNT(DISTINCT MT.ITEM)) + (COUNT(DISTINCT CT1.ITEM)) + (COUNT(DISTINCT CT2.ITEM)) + (COUNT(DISTINCT CT3.ITEM)) + (COUNT(DISTINCT CT4.ITEM)) as Total,
MT.Commodity
    FROM table1 as MT
       LEFT JOIN table2 CT1
       on MT.ITEM = CT1.ITEM
       LEFT JOIN table3 CT2
       on MT.ITEM = CT2.ITEM
       LEFT JOIN table4 CT3
       on MT.ITEM = CT3.ITEM
       LEFT JOIN table5 CT4
       on MT.ITEM = CT4.ITEM
GROUP BY Commodity

我认为这可能是错误地使用LEFT JOIN造成的。我也尝试了INNER JOIN同样不一致的结果。

1 个答案:

答案 0 :(得分:2)

我会对所有这五个表做一个UNION,将它们作为一个行集(内联视图),然后运行一个查询,从这个开始...

SELECT SUM(IF(t.source='MT',t.pagevisits,0)) AS table1
     , SUM(IF(t.source='CT1',t.pagevisits,0)) AS table2
     , t.commodity
  FROM ( SELECT 'MT' as source, table1.* FROM table1 
          UNION ALL  
         SELECT 'CT1', table2.* FROM table2
          UNION ALL
         SELECT 'CT2', table3.* FROM table3
          UNION ALL
         SELECT 'CT3', table4.* FROM table4
          UNION ALL
         SELECT 'CT4', table5.* FROM table5
      ) t
GROUP BY t.commodity

(但我会指定每个表的列列表,而不是使用'。*'并且我的查询依赖于没有人在任何这些表中添加/删除/重命名/重新排序列。)

我包含一个“额外”字面值(别名为“source”)来标识该行来自哪个表。我可以在SELECT列表的表达式中使用条件测试,以确定该行是否来自特定的表。

这种方法特别灵活,可用于获得更复杂的结果集。例如,如果我还希望从表3中获得总页数访问次数,则将4和5加在一起,以及各个计数。

SUM(IF(t.source IN ('CT2','CT3','CT4'),t.pagevisits,0) AS total_345

获得相当于COUNT(DISTINCT item) + COUNT(DISTINCT item) + ...表达式的内容......

我会使用一个表达式,它从“source”和“item”列中产生一个值,小心地保证任何特定的“source”+“item”都不会创建一些副本其他“来源”+“项目”。 (例如,如果我们只是连接字符串,我们没有办法区分'A'+'11'和'A1'+'1'。)我在这里看到的最常见的方法是精心选择的分隔符保证不会出现在任何一个值中。我们可以区分'A :: 11'和'A1 :: 1',所以这样的东西会起作用:

 COUNT(DISINCT CONCAT(t.source,'::',t.item))

在当前查询中,如果item为NULL,则该行不会包含在COUNT中。要完全复制该行为,您需要这样的事情:

 COUNT(DISINCT IF(t.item IS NOT NULL,CONCAT(t.source,'::',t.item),NULL)) AS Total

当然,在整个五个表中获取不同项目值的计数要简单得多(但是,它会返回不同的结果)

 COUNT(DISINCT t.item)

但是要回答有关使用LEFT JOIN的问题,左侧表是“驱动程序”,因此匹配的行必须在该表中,以便从表中检索相应的行。对。也就是说,不会返回右侧表格中不匹配的行。

如果您拥有的基本上是五个“分区”,并且您想要处理所有行,无论其他任何“分区”中是否出现匹配的行,我会采用UNION ALL方法简单地将所有这些表中的所有行连接在一起,并像处理单个表一样处理这些行。

注意:对于非常大的表,这可能不是一种可行的方法,因为MySQL将不得不实现内联视图。还有其他方法不需要将所有行连接在一起。

如果在您的查询中不需要引用这些表中的列,则在每个表的SELECT中指定仅需要列的列表可能有助于提高性能。