我一直在试图弄清楚如何网页抓取这个页面:sick.com 我无法弄清楚。我一直在尝试Visual Web Ripper,但它没有通过提交表单,因为它不记得cookie。你有什么想法? Sick.com可以提取数据,但他们懒得给我们数据库。
答案 0 :(得分:0)
我对Visual Web Ripper并不太熟悉,但听起来您只需要选择一个可以跟踪cookie的替代工具。有许多开源工具,如scrapy和Mechanize。我使用了屏幕刮刀,它正好跟踪饼干。
也就是说,您还可以确保在使用Visual Web Ripper时,您在请求搜索结果之前请求初始搜索页面。也就是说,初始请求应该设置cookie,然后在发出后续请求时传播。