我的抓取工具不适用于禁止使用403的google-compute-engine

时间:2018-12-20 06:54:46

标签: python-3.x web-scraping google-compute-engine

我用python3.6编写了一个网络抓取工具,它在我自己的服务器上运行良好。

当我尝试在google-compute-engine上运行它(完全相同的URL)时,它失败,并显示HTTP Error 403: Forbidden

我的代码和服务器上的结果

再次,效果很好。

>>> import urllib.request
>>> from bs4 import BeautifulSoup
>>> response = urllib.request.urlopen("http://www.kumkangho.co.kr/bk.popup.info.php?date=20190413&pa_uid=1")
>>> print(response.readline())
b'<!-- <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> -->\r\n'

google-compute-engine上的结果

enter image description here

我认为它不是被URL转到的服务器而是GCE。

1 个答案:

答案 0 :(得分:0)

经过一堆测试,我发现对面的服务器阻止了来自有害国家/地区的访问。

我设置了http_proxy,它现在可以工作了。

@Supratik Majumdar感谢您的帮助。