我正在尝试通过网页抓取网站,但是这样做很麻烦。
如果我不引入代理,则会收到错误消息:[“ WinError 10054]远程主机强行关闭了现有连接”。因此,我按照以下主题中的介绍引入了代理。
但是,现在出现错误:“ urlopen错误[Errno 11001] getaddrinfo失败”。我正在使用的代码如下:
from bs4 import BeautifulSoup
import urllib
from urllib import request
import re
proxy_host = 'http://IP:port'
req = urllib.request.Request('https://www.zacks.com/stock/quote/MA')
req.set_proxy(proxy_host, 'https')
r = urllib.request.urlopen(req).read()
soup = BeautifulSoup(r, "lxml")
type(soup)
谢谢。