Question

我试图从https://www.awesomebox.io/scan检索页面内容但在我能做之前，需要登录。目前我仍然获得登录页面内容。那是因为它重定向，因为我没有登录。

有人知道如何使用python-requests获取扫描页面内容吗？我尝试了多种请求身份验证方法。

到目前为止我的代码：

import requests

session = requests.session()

loginURL = 'http://www.awesomebox.io/login'
payload = {'username': '******','password': '******'}

session.post(loginURL, data=payload)

scanURL = "http://awesomebox.io/scan"
scanpage = session.get(scanURL)

print scanpage.content

Answer 1

我没有关于awesomebox的帐户，所以因此并不确切知道。但是现在网站上的登录比简单的用户名和密码更加复杂和安全。

要找到答案，您可以在浏览器的开发者模式下手动登录并跟踪网络流量（例如，对于MSIE或Edge， F12 ）并将其存储在.har文件中。在那里，您可以（希望）看到如何实现Login过程并在请求会话中构建相同的序列。

有时在表单中有一个隐藏字段（例如＆＃34; LT＆＃34;用于登录票证），之前已经通过页面填充了js。如果在后台通过Ajax运行秘密登录，有时它会更复杂。在这种情况下，您甚至不会在F12视图中看到任何内容，并且必须深入了解js脚本。

Answer 2

谢谢，我注意到我忘记了一个隐藏的参数。我添加了csrfmiddlewaretoken。

使用python-requests检索awesomebox.io扫描页面内容

2 个答案: