Google colab:访问被拒绝您无权访问此服务器上的“网站”

时间:2018-12-08 10:16:37

标签: python beautifulsoup automation google-cloud-platform google-colaboratory

我正尝试使用漂亮的汤在Google Colab上抓取网站。我可以在本地计算机上抓取内容,但是当我尝试在云上抓取内容时。我遇到了错误。

  

'\ n访问被拒绝\ n \ n访问被拒绝\ n \ n您无权访问“ http://www.justdial.com/Bangalore/Spardha-Mithra-IAS-KAS-Coaching-Centre-Opposite-Maruthi-Medicals-Vijayanagar/080PXX80-XX80-140120184741-R6P8_BZDET?”在该服务器上。\ n参考#18.740f1160.1544263996.61a6bb6e \ n \ n \ n'

当我在本地计算机上运行相同的代码时,就可以正常工作。

import requests
import re
from bs4 import BeautifulSoup
url = 'https://www.justdial.com/Bangalore/Spardha-Mithra-IAS-KAS-Coaching-Centre-Opposite-Maruthi-Medicals-Vijayanagar/080PXX80-XX80-140120184741-R6P8_BZDET?xid=QmFuZ2Fsb3JlIEJhbmsgRXhhbSBUdXRvcmlhbHM='
res  = requests.get(url, headers  = {'User-Agent': 'Mozilla/5.0'})
soup = BeautifulSoup(res.content, 'html.parser')
print(res)

输出:

<Response [403]>

为什么会这样,有什么办法摆脱它。

1 个答案:

答案 0 :(得分:1)

请确保这是服务器端的速率限制。您的代码在colab中对我来说效果很好。 您可以尝试使用colab的“重置所有运行时”功能来分配新的虚拟机,以排除所运行的其他笔记本代码带来的副作用。