Error 403 Forbidden

Question

我试图获取此页面的HTML：

F128::Factored

我试图使用请求来获取它：

 url = 'http://www.metacritic.com/movie/oslo-august-31st/critic-reviews'

但是他们似乎知道我以这种方式访问它并且当我打开时我收到的文件：

\n\n\n403 Forbidden\n\n\n

Error 403 Forbidden

\n

Forbidden

\n

Guru Meditation:

\n

XID: 961167012

\n

Varnish cache server

\n\n\n

除了从每个页面手动复制和粘贴每个html之外，还有其他方法可以访问html吗？

Answer 1

您需要指定User-Agent header才能获得200响应：

import requests

url = 'http://www.metacritic.com/movie/oslo-august-31st/critic-reviews'

response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'})
print(response.status_code)

Python - 通过Url / Request ERROR获取页面的完整HTML

Error 403 Forbidden

Guru Meditation:

1 个答案: