Question

我正尝试使用漂亮的汤在Google Colab上抓取网站。我可以在本地计算机上抓取内容，但是当我尝试在云上抓取内容时。我遇到了错误。

'\ n访问被拒绝\ n \ n访问被拒绝\ n \ n您无权访问“ http://www.justdial.com/Bangalore/Spardha-Mithra-IAS-KAS-Coaching-Centre-Opposite-Maruthi-Medicals-Vijayanagar/080PXX80-XX80-140120184741-R6P8_BZDET？”在该服务器上。\ n参考＃18.740f1160.1544263996.61a6bb6e \ n \ n \ n'

当我在本地计算机上运行相同的代码时，就可以正常工作。

import requests
import re
from bs4 import BeautifulSoup
url = 'https://www.justdial.com/Bangalore/Spardha-Mithra-IAS-KAS-Coaching-Centre-Opposite-Maruthi-Medicals-Vijayanagar/080PXX80-XX80-140120184741-R6P8_BZDET?xid=QmFuZ2Fsb3JlIEJhbmsgRXhhbSBUdXRvcmlhbHM='
res  = requests.get(url, headers  = {'User-Agent': 'Mozilla/5.0'})
soup = BeautifulSoup(res.content, 'html.parser')
print(res)

输出：

<Response [403]>

为什么会这样，有什么办法摆脱它。

Answer 1

请确保这是服务器端的速率限制。您的代码在colab中对我来说效果很好。您可以尝试使用colab的“重置所有运行时”功能来分配新的虚拟机，以排除所运行的其他笔记本代码带来的副作用。

Google colab：访问被拒绝您无权访问此服务器上的“网站”

1 个答案: