我用python3.6
编写了一个网络抓取工具,它在我自己的服务器上运行良好。
当我尝试在google-compute-engine
上运行它(完全相同的URL)时,它失败,并显示HTTP Error 403: Forbidden
。
再次,效果很好。
>>> import urllib.request
>>> from bs4 import BeautifulSoup
>>> response = urllib.request.urlopen("http://www.kumkangho.co.kr/bk.popup.info.php?date=20190413&pa_uid=1")
>>> print(response.readline())
b'<!-- <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> -->\r\n'
我认为它不是被URL转到的服务器而是GCE。
答案 0 :(得分:0)
经过一堆测试,我发现对面的服务器阻止了来自有害国家/地区的访问。
我设置了http_proxy
,它现在可以工作了。
@Supratik Majumdar感谢您的帮助。