Python Web抓取-为什么总是获取主页源代码?

时间:2018-12-19 14:41:19

标签: python-3.x web web-scraping python-requests

我已经完成了所有初始步骤,可以登录网站, 我正在尝试使用POST请求模拟一个搜索操作(实际上是使用Web门户上的Submit Action表单完成的),该操作成功,但是我从“主页”页面获得的页面源。

我可以理解页面源代码中是否未显示100%页面源代码(假设使用dict生成的数据),但此处的响应页面是静态的“主页”页面。

什么是重定向到主页?如何停止导航?

以下是实现此目的的代码步骤:

JavaScript

响应:

import requests

session = requests.Session()
session.get(access_config['login-url'])
session.post(access_config["auth-url"], data=auth_config)
res = session.post(link)
print(res.status_code)
print(res.history)
print(res.url)
print(res.text)

我正在使用status code :: 200 history :: <html><head><title>302 Moved Temporarily</title></head> <body bgcolor="#FFFFFF"> <p>This document you requested has moved temporarily.</p> <p>It's now at <a href="https://www.xxxx.com/a/welcome.html">https://www.xxxx.com/a/welcome.html</a>.</p> </body></html> response URL :: https://www.xxxx.com/a/welcome.html 库,我知道很多人在使用requests库执行这些操作,除了{{ 1}}?

1 个答案:

答案 0 :(得分:0)

@SonalBorkar谢谢!再次

我已经使用“ Firefox检查器”进行了检查,并发现了所看到的2个请求,您可以在图片中看到。 enter image description here

以下代码可完美运行-

import requests

session = requests.Session()
session.get(access_config['login-url'])
session.post(access_config["auth-url"], data=auth_config)
session.post(link1)
res = session.get(link2)
print(res.status_code)
print(res.history)
print(res.url)
print(res.text)
双击检查人员所在的行,即可看到

link1link2

link1->双击search.html

link2->双击seriessearch.html?...