运行多个ruby进程(数据导入)

时间:2013-04-26 15:12:39

标签: ruby concurrency

我有一个脚本可以从文件夹~/xml/中的XML文件导入数据。目前它按顺序运行,但随着导入文件数量的增加,它开始耗费太长时间。

我想并行运行脚本的多个副本,但是我可以设想两个脚本都开始处理同一个文件时出现问题,考虑到脚本基本上不了解彼此的存在,你会怎样解决这个问题? ?

数据库并发没有问题,因为每个导入文件都是针对不同的数据库。

1 个答案:

答案 0 :(得分:8)

你没有在脚本之间进行任何仲裁,也没有完成工作,而你需要它。

您说这些文件适用于不同的数据库。脚本如何知道哪个数据库?你不能预先处理排队的文件,并通过在名称上添加一些内容来重命名它们吗?或者,有一个脚本确定哪些数据在哪里,然后将名称传递给进行加载的子脚本?

我会做的更晚,并且可能会分叉工作,但线程也可以做。分叉有一些优点,但线程更容易调试。

您没有详细说明您的系统是否为您提供了可以滑入的代码,但这是使用线程做什么的一般概念:

require 'thread'

file_queue = Queue.new
Dir['./*'].each { |f| file_queue << f }

consumers = []
2.times do |worker|
  consumers << Thread.new do
    loop do
      break if file_queue.empty?
      data_file = file_queue.pop
      puts "Worker #{ worker } reading #{ data_file }. Queue size: #{ 1 + file_queue.length }\n"
      num_lines = 0
      File.foreach(data_file) do |li|
        num_lines += 1
      end
      puts "Worker #{ worker } says #{ data_file } contained #{ num_lines } lines.\n"
    end
  end
end

consumers.each { |c| c.join }

运行后,在控制台中显示:

Worker 1 reading ./blank.yaml. Queue size: 28
Worker 0 reading ./build_links_to_test_files.rake. Queue size: 27
Worker 0 says ./build_links_to_test_files.rake contained 68 lines.
Worker 0 reading ./call_cgi.rb. Queue size: 26
Worker 1 says ./blank.yaml contained 3 lines.
Worker 1 reading ./cgi.rb. Queue size: 25
Worker 0 says ./call_cgi.rb contained 11 lines.
Worker 1 says ./cgi.rb contained 10 lines.
Worker 0 reading ./client.rb. Queue size: 24
Worker 1 reading ./curl_test.sh. Queue size: 23
Worker 0 says ./client.rb contained 19 lines.
Worker 0 reading ./curl_test_all_post_vars.sh. Queue size: 22

这已被削减,但你明白了。

Ruby的Queue类是关键。它就像一个带有结冰的阵列,它可以仲裁对队列的访问。可以这样想:“消费者”,即线程,在空中放置一个标志以获得访问队列的许可。获得该权限后,他们可以popshift或修改队列。一旦完成,权限将被提供给下一个带有标记的线程。

出于深奥的原因,我使用pop代替shift但是,如果您的文件必须按特定顺序加载,请在将它们添加到队列之前对其进行排序,以便设置顺序,然后使用shift

我们希望存储运行的线程数,以便稍后join。这允许线程在母脚本结束之前完成它们的任务。