我在POST请求页面中使用Ruby(使用RestClient)进行屏幕抓取时出现问题

时间:2012-06-18 22:05:48

标签: ruby screen-scraping web-scraping rest-client

我正试图从棕榈滩县治安官办公室的police blotter获取逮捕数据。

我将我的搜索范围限制在西棕榈滩市,可以追溯到数据(1974年10月31日)。

我正在使用FireFox。

当我得到结果时,我打开FireBug,检查HTML标签,我可以从页面上看到我想要的信息(即被捕人员的姓名,逮捕地址,收费等)。

我检查了网络>> XHR>>帖子标签以找到POST请求参数,并将其放入我的代码中,但它返回的HTML不包含我正在寻找的重要信息。

有人知道我做错了,或者网站是否无法解决?这是我的代码:

require 'rubygems'
require 'nokogiri'
require 'restclient'
require 'open-uri'

blotterURL = 'http://www.pbso.org/index.cfm?fa=blotter'

city = "west palm beach"
fromrec = 1

if page = RestClient.post(blotterURL, {'city_name'=>city, 'fromrec'=>fromrec})
    puts Nokogiri::HTML(page)
end

1 个答案:

答案 0 :(得分:1)

这是因为页面正在由ajax更新填充。可能是watir-webdriver是你最好的选择。