我正尝试使用漂亮的汤在Google Colab上抓取网站。我可以在本地计算机上抓取内容,但是当我尝试在云上抓取内容时。我遇到了错误。
'\ n访问被拒绝\ n \ n访问被拒绝\ n \ n您无权访问“ http://www.justdial.com/Bangalore/Spardha-Mithra-IAS-KAS-Coaching-Centre-Opposite-Maruthi-Medicals-Vijayanagar/080PXX80-XX80-140120184741-R6P8_BZDET?”在该服务器上。\ n参考#18.740f1160.1544263996.61a6bb6e \ n \ n \ n'
当我在本地计算机上运行相同的代码时,就可以正常工作。
import requests
import re
from bs4 import BeautifulSoup
url = 'https://www.justdial.com/Bangalore/Spardha-Mithra-IAS-KAS-Coaching-Centre-Opposite-Maruthi-Medicals-Vijayanagar/080PXX80-XX80-140120184741-R6P8_BZDET?xid=QmFuZ2Fsb3JlIEJhbmsgRXhhbSBUdXRvcmlhbHM='
res = requests.get(url, headers = {'User-Agent': 'Mozilla/5.0'})
soup = BeautifulSoup(res.content, 'html.parser')
print(res)
输出:
<Response [403]>
为什么会这样,有什么办法摆脱它。
答案 0 :(得分:1)
请确保这是服务器端的速率限制。您的代码在colab中对我来说效果很好。 您可以尝试使用colab的“重置所有运行时”功能来分配新的虚拟机,以排除所运行的其他笔记本代码带来的副作用。