自动保存需要登录/ HTTPS的网页

时间:2011-01-26 14:18:40

标签: browser encryption https automation screen-scraping

我正在尝试从网站自动化一些数据。但是,因为用户必须通过登录屏幕,wget cronjob将无法工作,并且因为我需要发出HTTPS请求,所以简单的Perl脚本也不会工作。我试过看看Firefox的“DejaClick”插件只是重放一系列浏览器事件(登录网站,导航到有趣数据的位置,下载页面等),但插件的开发人员出于某种原因不包括将页面保存为功能。

有没有快速的方法来完成我在这里要做的事情?

2 个答案:

答案 0 :(得分:0)

前段时间我使用了机械化wwwsearch.sourceforge.net/mechanize并发现它非常有用。它支持urllib2,因此我现在应该也可以使用HTTPS请求。所以我上面的评论可能会被证明是错误的。

答案 1 :(得分:0)

您可以使用IRobotSoft网络抓取器记录您的操作。请参阅此处的演示:http://irobotsoft.com/help/

然后使用saveFile(filename,TargetPage)函数保存目标页面。