如何在入口处提交表格的网页抓取网页?

时间:2013-05-30 19:54:55

标签: web web-scraping screen-scraping scraper extractor

我一直在试图弄清楚如何网页抓取这个页面:sick.com 我无法弄清楚。我一直在尝试Visual Web Ripper,但它没有通过提交表单,因为它不记得cookie。你有什么想法? Sick.com可以提取数据,但他们懒得给我们数据库。

1 个答案:

答案 0 :(得分:0)

我对Visual Web Ripper并不太熟悉,但听起来您只需要选择一个可以跟踪cookie的替代工具。有许多开源工具,如scrapy和Mechanize。我使用了屏幕刮刀,它正好跟踪饼干。

也就是说,您还可以确保在使用Visual Web Ripper时,您在请求搜索结果之前请求初始搜索页面。也就是说,初始请求应该设置cookie,然后在发出后续请求时传播。