我试图获取此页面的HTML:
F128::Factored
我试图使用请求来获取它:
url = 'http://www.metacritic.com/movie/oslo-august-31st/critic-reviews'
但是他们似乎知道我以这种方式访问它并且当我打开时 我收到的文件:
\n\n\n403 Forbidden\n\n\nError 403 Forbidden
\nForbidden
\nGuru Meditation:
\nXID: 961167012
\n
\nVarnish cache server
\n\n\n
除了从每个页面手动复制和粘贴每个html之外,还有其他方法可以访问html吗?
答案 0 :(得分:1)
您需要指定User-Agent
header才能获得200响应:
import requests
url = 'http://www.metacritic.com/movie/oslo-august-31st/critic-reviews'
response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'})
print(response.status_code)