Python从安全网站获取数据

时间:2012-03-10 14:53:55

标签: python post cookies get urllib2

我想知道是否有办法从我的银行网站获取Python信息,我喜欢检索我的卡片历史并显示它,并可能每个月将其保存到文本文档中。

我找到了urls来登录并从网站上获取信息,这些信息可以在浏览器中使用,但我一直在使用liburl2从Python“打开”网页,我觉得它不起作用,因为有些cookie或会话。

我可以从不需要使用urllib2登录的网站获取我想要的任何信息,然后保存实际的HTML并稍后再浏览,但我不能在我的银行网站上

任何帮助将不胜感激

1 个答案:

答案 0 :(得分:3)

这是 Web-Scarping 的一部分:

  • 网络抓取是一项可以满足各种需求的标准任务。
  • 从安全网站中删除数据意味着https
  • 处理https不是mechanizeBeautifulSoup
  • 的问题
  • 虽然urllib2 HTTPCookieJar也可以正常使用
  • 如果管理cookie是个问题,那么我建议mechanize

考虑您的银行网站的情况:

  1. 我建议不要使用您的帐户。
  2. 如果必须,那就不像任何正常的安全/非安全网站那么容易。
  3. 这些网站旨在支持此类脚本。
  4. 您将面临的问题:

    1. BANK网站肯定会有Captcha几乎不可能绕过脚本,除非你雇用了大量的火箭科学和努力。
    2. 您肯定会遇到的其他问题是javascript,标准脚本解决方案专注于管理Cookie,HTML解析等。要在链接上处理javascript,您必须在python脚本中处理js。这又需要付出很多努力。
    3. 然后,再次来自javascript的AJAX在页面加载后从服务器获取数据。
    4. 因此,需要您花费很多精力来完成这项任务。

      此外,如果您尝试这样做,则可能会阻止访问您的帐户,因为银行网站可以快速阻止帐户访问,无法尝试登录或验证码等。

      所以,在你做之前先想想。