我希望能够获取一个页面的HTML,如果我在浏览器中以交互方式执行该操作,则会涉及多个操作和页面加载: 1.转到主页 2.在登录表单中输入文字并提交表格(邮寄) 这篇文章将经历各种重定向和框架集使用。
在整个过程中都会调整Cookie。
在浏览器中,提交后,我只是获取页面。
但是要用curl(在PHP或其他任何方面)或wget或ANOther低级技术来实现这一点,Cookie,重定向和框架集的管理都变得非常繁琐,并且非常紧密地将我的脚本绑定到网站上(使其非常紧密)即使是我正在搜索的网站上的微小变化也很容易。)
有人可以建议这样做吗?
我已经查看了 Crowbar 和 PhantomJS 和 Lynx (带有cmd_log / cmd_script选项),但将所有内容链接在一起以模仿究竟是什么我在Firefox或Chrome中做的很难。
(顺便说一句,目标网站认为此脚本 Firefox或Chrome或“真正的”浏览器)可能是有用/必要的
答案 0 :(得分:2)
一种方法是使用Selenium RC。虽然它通常用于测试,但它的核心只是一个浏览器远程控制服务。
答案 1 :(得分:0)
您可以在irobotsoft使用irobot录制机器人并重播。
如果您更喜欢低级控件,可以使用HTQL python接口,请参阅:http://htql.net/htql-python-manual.pdf。它允许您从python访问基于IE的浏览器。
答案 2 :(得分:0)
使用像Firebug这样的工具来检查提交到网站的标题以进行登录,然后将其完全复制到您的代码中。
或者只需使用浏览器登录,然后在代码中重复使用cookie。