Question

我正在尝试创建一个java程序来清理和合并表中的行。该表很大，大约500k行，我目前的解决方案运行速度非常慢。我想做的第一件事就是简单地获取一个表示我表中所有行的对象的内存数组。这就是我正在做的事情：

一次选择1000行的增量
使用JDBC在以下SQL查询中获取结果集 SELECT * FROM TABLE WHERE ID＆gt; 0和ID＆lt; 1000
将结果数据添加到内存数组
继续查询最多500,000，增量为1000，每次添加结果。

这已经很久了。事实上，它甚至没有超过从1000到2000的第二个增量。查询需要永远完成（虽然当我直接通过MySQL浏览器运行相同的东西时它速度相当快）。我已经有一段时间了，因为我直接使用了JDBC。有更快的替代方案吗？

Answer 1

首先，你确定你需要内存中的整个表吗？也许您应该考虑（如果可能）选择要更新/合并/等的行。如果你真的必须拥有整个表，你可以考虑使用可滚动的ResultSet。你可以像这样创建它。

// make sure autocommit is off (postgres)
con.setAutoCommit(false);

Statement stmt = con.createStatement(
                   ResultSet.TYPE_SCROLL_INSENSITIVE, //or ResultSet.TYPE_FORWARD_ONLY
                   ResultSet.CONCUR_READ_ONLY);
ResultSet srs = stmt.executeQuery("select * from ...");

它允许您使用“绝对”和“相对”方法移动到您想要的任何行。

Answer 2

虽然它可能不是最佳的，但您的解决方案似乎应该适用于一次性数据库清理例程。运行像这样的查询并获得结果不应该花那么长时间（我假设因为它只需几秒就可以了）。可能出现的问题 -

是你的网络（或者至少是你与mysql的连接）很慢？您可以尝试在mysql框上本地运行该进程，如果是这样，或者更好的连接。
表格结构中有什么东西导致它吗？每行下拉10k的数据？ 200个领域？根据非索引行计算要获取的id值？您可以尝试找到一种更加数据库友好的方式来提取数据（例如，只需要您需要的列，具有数据库聚合值等等）

如果你没有完成第二次增量，那么实际上是错误的 - 有效与否，你应该没有任何问题在运行的JVM上将2000或20,000行转储到内存中。也许你是冗余存储数据还是效率极低？

使用JDBC迭代大表的最快方法

3 个答案: