我正在尝试登录SureTrader activeweb(股票交易的经纪人网站)。然后我想从网站上获取实时股票数据。我试过用urllib,urllib2,mechanize,beautifulsoup和requests来做这个,但我找不到办法做到这一点。 我想登录的网站是https://activeweb.suretrader.com/,然后重定向到成员网站(我有一个帐户)。 我是一个初学者,我尝试了教程,但我没有运气。以下是我尝试过的一些事情:
https://www.youtube.com/watch?v=Igvf5C7qwO0 How can I input data into a webpage to scrape the resulting output using Python?
和其他但我无法发布更多链接:P。
我有一些python项目但没有效果。 同样重要的是,这些教程可以与其他网站一起使用,但不是我想要的,也许是因为它是https?
我是论坛的新手,我们会接受任何帮助和/或推荐。
修改的
我猜这个网站有防刮方法,只是想确定一下。 另外:我有一个帐户,这只是我正在进行的一个小夏季项目,我的意图不是不道德的。
答案 0 :(得分:0)
requests
支持Sessions,这意味着您可以将POST发送到登录页面(您可以通过查看浏览器的Web开发工具上的网络选项卡找出)并保留服务器发送的cookie 。有关会话的更多信息:http://docs.python-requests.org/en/latest/user/advanced/#session-objects
由于这是一个股票数据网站,他们可能会在某些地方采取一些反刮措施。例如,您可能需要更改请求率和用户代理。在这种情况下,你的工作要困难得多,并且你正在危险地接近不道德的行为。
如果问题出在请求中的其他位置(就像它总是为刮刀返回400),我建议您提供更详细的信息,以及您使用的代码示例。
答案 1 :(得分:0)
你从该网站上刮掉任何东西的可能性很小。从我乍看之下可以看出,DOM在Javascript中受到严重操纵。由于Beautifulsoup等人不是javascript解释器,你只会得到底层的html - 可能是结构而不是内容。这解释了为什么它适用于其他网站。