使用urllib刮取Metacritic以遵循重定向

时间:2013-12-17 20:41:58

标签: python web-scraping screen-scraping urllib

我正在研究一个Python脚本来从Metacritic中获取信息。它适用于大多数电影,但它与Metacritic重定向的电影有问题。

例如,在电影列表中,Metacritic提供的网址是“/ movie / red-riding-the-the-of-the-Lord-the-1983”,但当您点击该网址时,它会带您进入“/ movie” /红骑-三部曲”。我需要urllib来获取它最终到达的最终URL的HTML。

2 个答案:

答案 0 :(得分:1)

尝试使用,

import urllib.request
urllib.request.FancyURLopener().open_http("your url")

答案 1 :(得分:1)

我最终使用了请求模块。 (http://docs.python-requests.org/en/latest/)以下是请求的代码和保存最终网址的行。

response = requests.get(url)
newUrl = response.url