Question

我想对代码中的网站进行Webscrap，但是我得到了403代码。我搜索了有关解决此问题的所有主题，并使用了建议来定义用户代理，但是它仍然无法正常工作。

这是我尝试过的代码。

from requests import get

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
idealista = 'https://www.idealista.pt/comprar-casas/lisboa-distrito/pagina-1'
response = get(idealista, headers=headers)
print(response)

它正在返回“响应[403]”。如何获得200码？

Answer 1

如果仍然被禁止，则应尝试添加更多标题。

headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0',
           'referer': 'https://www.idealista.pt/comprar-casas/lisboa-distrito/pagina-1' }
request = requests.get('https://www.idealista.pt/comprar-casas/lisboa-distrito/pagina-1', headers=headers)

输出

<Response [200]>

Python WebScrapping-我可以浏览网站，但请求返回“ 403”

1 个答案: