我试图从https://www.awesomebox.io/scan检索页面内容 但在我能做之前,需要登录。目前我仍然获得登录页面内容。那是因为它重定向,因为我没有登录。
有人知道如何使用python-requests获取扫描页面内容吗? 我尝试了多种请求身份验证方法。
到目前为止我的代码:
import requests
session = requests.session()
loginURL = 'http://www.awesomebox.io/login'
payload = {'username': '******','password': '******'}
session.post(loginURL, data=payload)
scanURL = "http://awesomebox.io/scan"
scanpage = session.get(scanURL)
print scanpage.content
答案 0 :(得分:0)
我没有关于awesomebox的帐户,所以因此并不确切知道。但是现在网站上的登录比简单的用户名和密码更加复杂和安全。
要找到答案,您可以在浏览器的开发者模式下手动登录并跟踪网络流量(例如,对于MSIE或Edge, F12 )并将其存储在.har文件中。在那里,您可以(希望)看到如何实现Login过程并在请求会话中构建相同的序列。
有时在表单中有一个隐藏字段(例如" LT"用于登录票证),之前已经通过页面填充了js。如果在后台通过Ajax运行秘密登录,有时它会更复杂。在这种情况下,您甚至不会在F12视图中看到任何内容,并且必须深入了解js脚本。
答案 1 :(得分:0)
谢谢,我注意到我忘记了一个隐藏的参数。 我添加了csrfmiddlewaretoken。