browser - 自动保存需要登录/ HTTPS的网页

自动保存需要登录/ HTTPS的网页

时间：2011-01-26 14:18:40

标签： browser encryption https automation screen-scraping

我正在尝试从网站自动化一些数据。但是，因为用户必须通过登录屏幕，wget cronjob将无法工作，并且因为我需要发出HTTPS请求，所以简单的Perl脚本也不会工作。我试过看看Firefox的“DejaClick”插件只是重放一系列浏览器事件（登录网站，导航到有趣数据的位置，下载页面等），但插件的开发人员出于某种原因不包括将页面保存为功能。

有没有快速的方法来完成我在这里要做的事情？

2 个答案:

答案 0 :(得分：0)

前段时间我使用了机械化wwwsearch.sourceforge.net/mechanize并发现它非常有用。它支持urllib2，因此我现在应该也可以使用HTTPS请求。所以我上面的评论可能会被证明是错误的。

答案 1 :(得分：0)

您可以使用IRobotSoft网络抓取器记录您的操作。请参阅此处的演示：http://irobotsoft.com/help/

然后使用saveFile（filename，TargetPage）函数保存目标页面。