我正在用红宝石海葵做蜘蛛网。它不适用于所有网站。它与几个网站合作,我得到了这些网站的所有网址。但是很少有网站,在获得几个网址后停止。它在终端和脚本停止时显示“已杀死”。请有人能告诉我可能是什么问题吗?
require 'rubygems'
require 'anemone'
require 'csv'
require 'digest/md5'
Anemone.crawl("http://example.com/") do |anemone|
anemone.on_every_page do |page|
md5hash = Digest::MD5.hexdigest("#{page.url}")
puts md5hash
page_url = page.url
puts page_url
file = page.body
File.open("app/#{md5hash}.txt", "w") do |file|
file.puts "#{page.body}"
end
CSV.open('urlinfo.csv', "a") do |csv|
csv << [md5hash, page_url]
end
end
end