基于位掩码在mysql中查找重复记录

时间:2010-08-02 18:51:22

标签: mysql duplicates bitmask

我有一个mysql表,用于存储传感器的维护日志。我想设计一个查询,查找由于同样的原因修复/维护给定传感器的实例。 (反复出现的问题发现者。)

我的表格(简化)如下所示:

id    name     mask
==    ====     ====
11    alpha    0011
12    alpha    0010
13    alpha    0100
14    beta     0001

掩码字段是位掩码,其中每个位置代表特定类型的修复。我能够成功地弄清楚如何比较位掩码(per this question),但试图将它合并到一个查询中比我想象的要困难。

鉴于上述样本记录,只有id 11和12适用,因为它们在第三个掩码位置都有1

这是我尝试过的以及为什么它不起作用:

<小时/> 的 1。永远不会结束......
此查询似乎永远存在,我认为它不会按照我想要的方式运行。

SELECT t1.id, t1.name
FROM data t1
LEFT OUTER JOIN data t2
ON (CONV(t1.mask,2,10) & CONV(t2.mask,2,10) > 0)
GROUP BY t1.name
HAVING COUNT(*) >1;

2。查询不完整......
我正在考虑创建一个视图,只解析实际上在表中有多个条目的传感器。我不知道从哪里开始。

SELECT COUNT(t1.name) AS times, t1.name, t1.id, t1.mask
FROM data AS t1
GROUP BY t1.name ASC
HAVING times > 1;

对此有何建议?

3 个答案:

答案 0 :(得分:2)

由于数据库结构的设计并未考虑到RDBM的实际情况(可能不是你在做,我只是要说明问题......),性能总是很差,尽管有可能编写一个查询将结束。

Jim是正确的,因为查询会生成笛卡尔积。如果要以未分组和未过滤的方式返回该查询,则可能会产生(SELECT POW(COUNT(*), 2) FROM data)个结果。此外,任何形式的外连接都是不必要的,因此标准的内连接就是你想要的(不是它应该在性能方面有所作为,它更合适)。

连接的另一个条件,t1.id != t2.id是必要的,以免每条记录都匹配。

SELECT t1.id, t1.name
FROM data t1
JOIN data t2
     ON t1.name = t2.name
     AND t1.id != t2.id     //
WHERE CONV(t1.mask, 2, 10) & CONV(t2.mask, 2, 10) > 0
GROUP BY t1.name
HAVING COUNT(*) > 1;

您的查询不完整:

SELECT t1.id, t1.name, t1.mask
FROM data t1
WHERE t1.name IN (SELECT t2.name FROM data t2 GROUP BY t2.name HAVING COUNT(*) > 1);

SELECT t1.id, t1.name, t1.mask
FROM data t1
WHERE EXISTS (SELECT 1 FROM data t2 WHERE t2.name = t1.name GROUP BY t2.name HAVING COUNT(*) > 1);

我无法告诉你哪一项效果最好。如果将data.name编入索引(我希望它是),则任一查询的成本应该相当低。前者将缓存子选择的副本,而后者将对索引执行多个查询。

一个非常基本的优化(同时保持表结构不变)将掩码字段转换为无符号整数数据类型,从而节省了对CONV()的许多调用。

WHERE CONV(t1.mask, 2, 10) & CONV(t2.mask, 2, 10) > 0

变为

WHERE t1.mask & t2.mask > 0

当然,进一步打破数据确实更有意义。不是将位掩码存储在一个记录中,而是将所有位分成单独的记录

id    name     mask
==    ====     ====
11    alpha    1101

会变成

id    name    value
==    ====    =====
11    alpha       1
12    alpha       4
13    alpha       8

现在,namevalue上的战略性索引使查询变得轻而易举

SELECT name, value
FROM data
GROUP BY name, value
HAVING COUNT(*) > 1;

我希望这会有所帮助。

答案 1 :(得分:0)

在实列中中断掩码位。 RDMB不喜欢位字段。

答案 2 :(得分:0)

您的加入会产生表格的笛卡尔积。将“t1.name = t2.name”添加到连接中,给出一堆(更多)较小的笛卡尔积,每个唯一名称一个,这将大大加快速度。