我正在编写一个代码,我正在加载很多网站,有时链接不存在,而是转到另一个链接(比我告诉它的链接)。
所以我希望能够确定我正在废弃的当前网站实际上是我告诉它去的地址。
这是我正在使用的代码示例。我应该添加什么,以便找到它的地址名称?
req = Request(l, headers={'User-Agent': 'Mozilla/5.0'})
html_page = urlopen(req).read()
soup = BeautifulSoup(html_page, "lxml")
答案 0 :(得分:0)
有两种方法,要么设置allow_redirects = False以防止请求重定向到另一个页面,或者,您可以检查规范网址:
from bs4 import BeautifulSoup
import requests
import urllib
l = 'http://en.wikipedia.org/wiki/Google_Inc_Class_A'
req = requests.get(l, headers={'User-Agent': 'Mozilla/5.0'})
soup = BeautifulSoup(req._content, "lxml")
canonical = soup.find('link', {'rel': 'canonical'})
canonical['href']
您可以在此处查看更多内容:When I use python requests to check a site, if the site redirects me to another page, will I know?