一段时间后,Ruby web spidering脚本被杀死了

时间:2011-08-05 09:35:25

标签: ruby

我正在用红宝石海葵做蜘蛛网。它不适用于所有网站。它与几个网站合作,我得到了这些网站的所有网址。但是很少有网站,在获得几个网址后停止。它在终端和脚本停止时显示“已杀死”。请有人能告诉我可能是什么问题吗?

require 'rubygems'
require 'anemone'
require 'csv'
require 'digest/md5'

Anemone.crawl("http://example.com/") do |anemone|
  anemone.on_every_page do |page|
    md5hash = Digest::MD5.hexdigest("#{page.url}")
    puts md5hash

    page_url = page.url
    puts page_url

    file = page.body
    File.open("app/#{md5hash}.txt", "w") do |file|
      file.puts "#{page.body}"
    end

    CSV.open('urlinfo.csv', "a") do |csv|
      csv << [md5hash, page_url]
    end
  end
end

0 个答案:

没有答案