我想对代码中的网站进行Webscrap,但是我得到了403代码。我搜索了有关解决此问题的所有主题,并使用了建议来定义用户代理,但是它仍然无法正常工作。
这是我尝试过的代码。
from requests import get
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
idealista = 'https://www.idealista.pt/comprar-casas/lisboa-distrito/pagina-1'
response = get(idealista, headers=headers)
print(response)
它正在返回“响应[403]”。如何获得200码?
答案 0 :(得分:2)
如果仍然被禁止,则应尝试添加更多标题。
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0',
'referer': 'https://www.idealista.pt/comprar-casas/lisboa-distrito/pagina-1' }
request = requests.get('https://www.idealista.pt/comprar-casas/lisboa-distrito/pagina-1', headers=headers)
输出
<Response [200]>