Web-scrape运行时的ConnectionResetError。

时间:2014-01-13 06:36:39

标签: python python-3.x beautifulsoup urllib

我是python的新手。下面的函数给出了来自imdb的电影和导演名字。它适用于单个链接。但当我为大量链接运行它时,它会给出 ConnectionResetError:[WinError 10054]远程主机强行关闭现有连接

我该怎么办?如何改进代码?

def get_director(movie_url):
    html=urllib.request.urlopen(movie_url).read()
    soup=BeautifulSoup(html,"lxml")
    movie=soup.find("h1","header")
    movie_name=movie.find("span","itemprop").text
    d=soup.find("div","txt-block")
    director=d.find("span","itemprop").text
    return {'Movie':movie_name,'Director':director}

1 个答案:

答案 0 :(得分:0)

这听起来很可能是服务器端的速率限制或其他限制,而不是代码本身的缺陷。你应该首先看看imdb是否已经公布了官方费率或其他刮取限制;如果他们没有,你别无选择,只能尝试并退出,直到错误停止。