Python - 通过Url / Request ERROR获取页面的完整HTML

时间:2016-07-13 03:13:03

标签: python html url web-scraping python-requests

我试图获取此页面的HTML:

F128::Factored

我试图使用请求来获取它:

 url = 'http://www.metacritic.com/movie/oslo-august-31st/critic-reviews'

但是他们似乎知道我以这种方式访问​​它并且当我打开时 我收到的文件:

\n\n\n403 Forbidden\n\n\n

Error 403 Forbidden

\n

Forbidden

\n

Guru Meditation:

\n

XID: 961167012

\n
\n

Varnish cache server

\n\n\n

除了从每个页面手动复制和粘贴每个html之外,还有其他方法可以访问html吗?

1 个答案:

答案 0 :(得分:1)

您需要指定User-Agent header才能获得200响应:

import requests

url = 'http://www.metacritic.com/movie/oslo-august-31st/critic-reviews'

response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'})
print(response.status_code)