我们正在构建一个我们刚刚构建的CMS中的CSV导出机制,但我们无法将内存保留在数百万行的结果集上。将MySQL(通过mysql2
gem)的1MM +行结果写入CSV的最佳方法是什么?如果它有任何区别,我们使用的是Ruby 1.9.3p194和MySQL 5.5。我们的主要目标是在Ruby进程上保持内存消耗。
答案 0 :(得分:7)
默认情况下,mysql2会缓存为其结果集创建的ruby对象。如果你关闭它,那么应该大大减少内存消耗。例如你可以做
require 'mysql2'
client = Mysql2::Client.new(:host => "localhost", :username => "someuser")
client.query 'use some_db'
CSV.open('output.csv', 'w') do |csv|
results = client.query("SELECT * FROM big_table")
results.each(:cache_rows => false) do |row|
csv << [row['column_a'], row['column_b']]
end
end
答案 1 :(得分:4)
答案 2 :(得分:0)
如果您出于某种原因不想使用eggyal的OUTFILE
解决方案,我会使用LIMIT
和OFFSET
将查询拆分为批次:
SELECT ... LIMIT 5000 OFFSET 5000
http://dev.mysql.com/doc/refman/5.0/en/select.html
内存消耗来自于从大型1M +查询创建大型单个ruby数组。通过将其拆分为较小的批次并将每个批次依次转储到CSV文件中将有助于降低内存消耗。