我的代码和服务器上的结果

Question

我用python3.6编写了一个网络抓取工具，它在我自己的服务器上运行良好。

当我尝试在google-compute-engine上运行它（完全相同的URL）时，它失败，并显示HTTP Error 403: Forbidden。

我的代码和服务器上的结果

再次，效果很好。

>>> import urllib.request
>>> from bs4 import BeautifulSoup
>>> response = urllib.request.urlopen("http://www.kumkangho.co.kr/bk.popup.info.php?date=20190413&pa_uid=1")
>>> print(response.readline())
b'<!-- <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> -->\r\n'

google-compute-engine上的结果

我认为它不是被URL转到的服务器而是GCE。

Answer 1

经过一堆测试，我发现对面的服务器阻止了来自有害国家/地区的访问。

我设置了http_proxy，它现在可以工作了。

@Supratik Majumdar感谢您的帮助。

我的抓取工具不适用于禁止使用403的google-compute-engine

我的代码和服务器上的结果

google-compute-engine上的结果

1 个答案: