使用BeautifulSoup下载数据时出现ConnectionReset错误,但使用JSoup可以正常工作。
我有使用Jsoup的经验,并且想学习使用Python进行抓取。我正在尝试使用BeautifulSoup从网站下载内容,并且出现以下错误,
ConnectionResetError: [WinError 10054] An existing connection was forcibly closed by the remote host
每次访问URL后,我检查的资源很少,并保持5到10秒钟的睡眠时间,但是我仍然会在每50-70次匹配中收到错误消息。
我使用JSoup尝试了同样的方法,并且效果很好。
如果我缺少某些东西,有人可以帮我吗?我的代码在下面,
test.py
r = requests.get(url)
data = r.text
soup = BeautifulSoup(data)
f.write(str(soup) + "\n")
print (url)
time.sleep(10)
test.java
Document d = Jsoup.connect(url).method(Method.GET)
.timeout(20000).ignoreContentType(true).ignoreHttpErrors(true)
.execute().parse();