我试图抓取this website,但需要登录。我正在努力通过在python中使用请求库成功登录。
查看html中的表单,没有隐藏的值,并且在控制台中拦截http请求时,表单的登录发布请求包含用户名:" username here"密码:"密码在这里"。
我还尝试调整标头,因为我读到某些服务器可能拒绝访问非浏览器标头类型。
以下是我的尝试
import requests
from fake_useragent import UserAgent
ua = UserAgent()
headers = {"User-Agent": str(ua.chrome)}
payload = {"username": "username",
"password": "password"
}
login = requests.get("https://scsctennis.gametime.net/auth",
headers=headers)
response = requests.post("https://scsctennis.gametime.net/auth",
data=payload, cookies=login.cookies, headers=headers)
print(response.text)
以及
import requests
from fake_useragent import UserAgent
ua = UserAgent()
headers = {"User-Agent": str(ua.chrome)}
payload = {"username": "username",
"password": "password"
}
s = requests.session()
login = s.get("https://scsctennis.gametime.net/auth", headers=headers)
response = s.post("https://scsctennis.gametime.net/auth", data=payload,
headers=headers)
print(response.text)
有一点我注意到,在发布请求之后,如果我尝试查看cookie - print(response.cookies)没有cookie,但是对于get请求,print(login.cookies)有一个cookie。
我已经关注并阅读了this blog和requests documentation,并且经历了很多stackoverflow帖子。任何帮助将不胜感激,谢谢。
编辑您是对的,它会发布到" https://scsctennis.gametime.net/auth/json-index"这里改变了代码和建议。
import requests
# headers = {'x-requested-with': 'XMLHttpRequest'}
headers = {"Content-Type": "application/x-www-form-urlencoded; charset=UTF-
8"}
payload = {"username": "username",
"password": "password"
}
s = requests.session()
login = s.get("https://scsctennis.gametime.net/auth/json-index",
headers=headers)
print(login.text)
response = s.post("https://scsctennis.gametime.net/auth/json-index",
data=payload, headers=headers)
print(response.text)
各个印刷声明的回复:
{"代码":505," msg":"无法识别用户名或密码。请检查拼写,然后重试。"}
{"代码":202," msg":"无法识别用户名或密码。请检查拼写,然后重试。"," isStaff":false," user":{" name":" Vuk&#34 ;}}
我只是通过访问网址而不是发布到网址来收到505消息。
202消息是当我发布到网址时,但是用户名/密码是正确的但它说错了。不知道为什么? " isStaff":false," user":{" name":" Vuk"}响应是正确的,因为那是我的名字与尝试的登录凭据相关联,我不是工作人员。
有关如何进行的任何想法?
最后编辑:成功得到它。感谢您发现我没有发布到正确的网址!事实证明,上面的202消息是成功的。它将我的名称识别为属于登录凭据,但他们只是选择显示任何消息。 在帖子请求之后,如果我使用获取请求到我想要的页面,我会收到很好的回复。谢谢!
import requests
payload = {"username": "username",
"password": "password"
}
s = requests.session()
response = s.post("https://scsctennis.gametime.net/auth/json-index",
data=payload)
print(response.text)
stuff = s.get("http://scsctennis.gametime.net/scheduling/index/jsoncourtdata/sport/1/date/2017-12-25")`
print(stuff.text)
答案 0 :(得分:0)
我看到表单将凭据发布到“https://scsctennis.gametime.net/auth/json-index”并获取响应的json。
您可以发布到此端点而不是您发布的端点吗?
向此终端发布虚假凭据:
curl "https://scsctennis.gametime.net/auth/json-index" -H "Content-Type: application/x-www-form-urlencoded; charset=UTF-8" -H "Cookie: gametime=ba3725642c5b55fe1123dec46e45e3a7" --data "username=test&passwo
rd=test"
返回{"code":505,"msg":"The username or password was not recognized. Please check the spelling and try again."}