优化250k记录更新的存储过程到1.7m记录表中的随机记录?

时间:2013-02-01 14:31:31

标签: mysql stored-procedures

我目前正在运行以下存储过程。虽然它比我原来的程序更有效,但仍然需要花费过多的时间。我不确定减速是什么,因为第一个10k-30k记录发生得很快,但随着它的进一步增长它变得越来越慢。我期望更新大约250万行,大约170万。一旦完成,我将做类似的事情,将记录插入每个“太阳系”。

举个例子说明这个时间。它现在已经运行了24个多小时,它只是在1716年的迭代786它必须做。选择更改限制的原因是我的表中每个扇区有1000个可能的行。我个人认为没有任何减速,但是我不了解MySQL的内部运作情况。

这项工作是在我的本地计算机上完成的,不是没有慢,但总是有可能需要在服务器级别进行更改,以使这些查询更有效。如果需要,我可以更改服务器设置,这也是一种可能性。仅供参考我在Windows 7上使用MySQL的库存配置。

DECLARE CurrentOffset int; -- Current offset limit to only deal with one 
DECLARE CurrentOffsetMultiplier int;
DECLARE RandRow int; -- Random Row to make a Solar System with
DECLARE CheckSystemExists int; -- Used to insure RandRow is not already a Solar System Row
DECLARE TotalSystemLoops int; -- Total number of loops so each Galaxy gets it's systems.
DECLARE RandomSolarSystemCount int; -- This is the number of Solar Systems that will be in each Galaxy;
DECLARE UpdateSolarCount int;
DECLARE NumberOfOffsets int;

SET CurrentOffsetMultiplier = 0;
SET NumberOfOffsets = 1716;
SET CurrentOffset = 0;


OffsetLoop: LOOP
        SET UpdateSolarCount = 0;
        /*Sets the amount of Solary Systems going in a Galaxy*/
            CheckRandomSolarSystemCount: LOOP
                SET RandomSolarSystemCount = FLOOR(125 + RAND() * (175 - 125) + 1);  
                IF RandomSolarSystemCount >= 125 THEN
                    IF RandomSolarSystemCount <= 175 THEN
                        LEAVE CheckRandomSolarSystemCount;
                    END IF;
                END IF;
            END LOOP;
        UpdateGalaxyWithSolarSystems: LOOP
                SET UpdateSolarCount = UpdateSolarCount + 1;
                IF UpdateSolarCount > RandomSolarSystemCount THEN
                    LEAVE UpdateGalaxyWithSolarSystems;
                END IF;
                        /*Sets RandRow and CheckSystemExists*/
                        CheckExistsLoop: Loop
                            SET RandRow = FLOOR(0 + RAND() * (1000)+ 1);
                            SET CheckSystemExists = (SELECT COUNT(*)
                                FROM
                                    (SELECT * FROM
                                        (SELECT * FROM galaxies2 LIMIT CurrentOffset, 1000) AS LimitedTable
                                    LIMIT RandRow ,1) AS RandTable
                                WHERE SolarSystemName IS NULL);
                            IF CheckSystemExists THEN
                                LEAVE CheckExistsLoop;
                            END IF;
                        END LOOP;

                        /*Updates the tables SolarSystemName column with a default system name*/
                        UPDATE galaxies2 
                            SET SolarSystemName = CONCAT("Solar System ", RandRow)
                            WHERE galaxies2.idGalaxy = 
                                (SELECT LimitedTable.idGalaxy AS GalaxyID FROM
                                    (SELECT galaxies2.idGalaxy FROM galaxies2 LIMIT CurrentOffset, 1000) AS LimitedTable
                                LIMIT RandRow ,1)
                        ;
        END LOOP;
        SET CurrentOffsetMultiplier = CurrentOffsetMultiplier + 1;
        SET CurrentOffset = CurrentOffsetMultiplier * 1000;
        IF CurrentOffsetMultiplier = 1717 THEN
            LEAVE OffsetLoop;
        END IF;
END LOOP;

1 个答案:

答案 0 :(得分:0)

它越来越慢,因为你正在“走过”galaxies2表。

SELECT * FROM galaxies2 LIMIT CurrentOffset, 1000

随着CurrentOffset值的增加,MySQL必须“遍历”越来越多的记录才能到达起点。实际上,您可以通过在主键上指定ORDER BY来提高速度。你想要一个ORDER BY,因为如果没有指定订单,MySQL就会随机读取记录。它不会以任何特定的顺序读取记录,因此您可以(尽管不太可能)在不同的偏移量中获得相同的记录集。

最好在自动增量字段中指定范围。假设你有一个。然后第一个和最后一个查询应该执行大致相同的操作。它不是那么理想,因为删除的记录可能存在差距。

SELECT * FROM galaxies2 WHERE auto_incr_field BETWEEN CurrentOffset AND CurrentOffset+1000