登录网站,然后从网站获取数据。蟒蛇

时间:2015-08-06 01:25:31

标签: python login https python-requests

我正在尝试登录SureTrader activeweb(股票交易的经纪人网站)。然后我想从网站上获取实时股票数据。我试过用urllib,urllib2,mechanize,beautifulsoup和requests来做这个,但我找不到办法做到这一点。 我想登录的网站是https://activeweb.suretrader.com/,然后重定向到成员网站(我有一个帐户)。 我是一个初学者,我尝试了教程,但我没有运气。以下是我尝试过的一些事情:

https://www.youtube.com/watch?v=Igvf5C7qwO0 How can I input data into a webpage to scrape the resulting output using Python?

和其他但我无法发布更多链接:P。

我有一些python项目但没有效果。 同样重要的是,这些教程可以与其他网站一起使用,但不是我想要的,也许是因为它是https?

我是论坛的新手,我们会接受任何帮助和/或推荐。

修改

我猜这个网站有防刮方法,只是想确定一下。 另外:我有一个帐户,这只是我正在进行的一个小夏季项目,我的意图不是不道德的。

2 个答案:

答案 0 :(得分:0)

requests支持Sessions,这意味着您可以将POST发送到登录页面(您可以通过查看浏览器的Web开发工具上的网络选项卡找出)并保留服务器发送的cookie 。有关会话的更多信息:http://docs.python-requests.org/en/latest/user/advanced/#session-objects

由于这是一个股票数据网站,他们可能会在某些地方采取一些反刮措施。例如,您可能需要更改请求率和用户代理。在这种情况下,你的工作要困难得多,并且你正在危险地接近不道德的行为。

如果问题出在请求中的其他位置(就像它总是为刮刀返回400),我建议您提供更详细的信息,以及您使用的代码示例。

答案 1 :(得分:0)

哇...有人需要联系他们并解释'usemin','uglify','concat','require'和其他现代工具。

你从该网站上刮掉任何东西的可能性很小。从我乍看之下可以看出,DOM在Javascript中受到严重操纵。由于Beautifulsoup等人不是javascript解释器,你只会得到底层的html - 可能是结构而不是内容。这解释了为什么它适用于其他网站。