Question

我正在尝试抓取某个网站并在每个地址附加一个网址参数，然后再点击它们。这就是我到目前为止所拥有的：

但是我想让蜘蛛打到所有页面并附上一个像这样的参数：

example.com/page1?var=param1
example.com/page2?var=param1
example.com/page3?var=param1

更新1 - 试过这个，但没有工作，经过几次迭代后出错（＆＃34; 405方法不允许＆＃34;）：

 require "spidr"
    Spidr.site('http://www.example.com/') do |spider|
      spider.every_url { |url| puts url }
    end

Answer 1

我没有依赖Spidr，而只是从Google Analytics中抓取了我需要的网址的CSV，然后通过这些网址运行。完成了工作。

require 'csv'
require 'open-uri'

CSV.foreach(File.path("the-links.csv")) do |row|
    link = "http://www.example.com"+row[0]+"?foo=bar"
    encoded_url = URI.encode(link)
    response = open(encoded_url).read
    puts encoded_url
    puts
end

Ruby抓取站点，添加URL参数

1 个答案: