应用错误收集

Python从安全网站获取数据

时间：2012-03-10 14:53:55

标签： python post cookies get urllib2

我想知道是否有办法从我的银行网站获取Python信息，我喜欢检索我的卡片历史并显示它，并可能每个月将其保存到文本文档中。

我找到了urls来登录并从网站上获取信息，这些信息可以在浏览器中使用，但我一直在使用liburl2从Python“打开”网页，我觉得它不起作用，因为有些cookie或会话。

我可以从不需要使用urllib2登录的网站获取我想要的任何信息，然后保存实际的HTML并稍后再浏览，但我不能在我的银行网站上

任何帮助将不胜感激

1 个答案:

答案 0 :(得分：3)

这是 Web-Scarping 的一部分：

网络抓取是一项可以满足各种需求的标准任务。
从安全网站中删除数据意味着https
处理https不是mechanize和BeautifulSoup
虽然urllib2 HTTPCookieJar也可以正常使用
如果管理cookie是个问题，那么我建议mechanize

考虑您的银行网站的情况：

我建议不要使用您的帐户。
如果必须，那就不像任何正常的安全/非安全网站那么容易。
这些网站旨在支持此类脚本。

您将面临的问题：

BANK网站肯定会有Captcha几乎不可能绕过脚本，除非你雇用了大量的火箭科学和努力。
您肯定会遇到的其他问题是javascript，标准脚本解决方案专注于管理Cookie，HTML解析等。要在链接上处理javascript，您必须在python脚本中处理js。这又需要付出很多努力。
然后，再次来自javascript的AJAX在页面加载后从服务器获取数据。

因此，需要您花费很多精力来完成这项任务。

此外，如果您尝试这样做，则可能会阻止访问您的帐户，因为银行网站可以快速阻止帐户访问，无法尝试登录或验证码等。

所以，在你做之前先想想。