Python Web Scraping - urlopen错误[Errno -2]名称或服务未知

时间:2012-07-23 02:02:45

标签: python web-scraping beautifulsoup

我正在尝试从Civic Commons Apps链接中为我的项目提取数据。我能够获得我需要的页面链接。但当我尝试打开链接时,我得到“urlopen错误[Errno -2]名称或服务未知”

网页抓取python代码:

from bs4 import BeautifulSoup
from urlparse import urlparse, parse_qs
import re
import urllib2
import pdb

base_url = "http://civiccommons.org"
url = "http://civiccommons.org/apps"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())

list_of_links = [] 

for link_tag in soup.findAll('a', href=re.compile('^/civic-function.*')):
   string_temp_link = base_url+link_tag.get('href')
   list_of_links.append(string_temp_link)

list_of_links = list(set(list_of_links)) 

list_of_next_pages = []
for categorized_apps_url in list_of_links:
   categorized_apps_page = urllib2.urlopen(categorized_apps_url)
   categorized_apps_soup = BeautifulSoup(categorized_apps_page.read())

   last_page_tag = categorized_apps_soup.find('a', title="Go to last page")
   if last_page_tag:
      last_page_url = base_url+last_page_tag.get('href')
      index_value = last_page_url.find("page=") + 5
      base_url_for_next_page = last_page_url[:index_value]
      for pageno in xrange(0, int(parse_qs(urlparse(last_page_url).query)['page'][0]) + 1):
         list_of_next_pages.append(base_url_for_next_page+str(pageno))

   else:
      list_of_next_pages.append(categorized_apps_url)

我收到以下错误:

urllib2.urlopen(categorized_apps_url)
  File "/usr/lib/python2.7/urllib2.py", line 126, in urlopen
    return _opener.open(url, data, timeout)
  File "/usr/lib/python2.7/urllib2.py", line 400, in open
    response = self._open(req, data)
  File "/usr/lib/python2.7/urllib2.py", line 418, in _open
    '_open', req)
  File "/usr/lib/python2.7/urllib2.py", line 378, in _call_chain
    result = func(*args)
  File "/usr/lib/python2.7/urllib2.py", line 1207, in http_open
    return self.do_open(httplib.HTTPConnection, req)
  File "/usr/lib/python2.7/urllib2.py", line 1177, in do_open
    raise URLError(err)
urllib2.URLError: <urlopen error [Errno -2] Name or service not known>

当我执行urlopen时,我应该处理任何具体的事情吗?因为我没有看到我得到的http链接有问题。

[编辑] 第二次运行时出现以下错误:

 File "/usr/lib/python2.7/urllib2.py", line 126, in urlopen
    return _opener.open(url, data, timeout)
  File "/usr/lib/python2.7/urllib2.py", line 400, in open
    response = self._open(req, data)
  File "/usr/lib/python2.7/urllib2.py", line 418, in _open
    '_open', req)
  File "/usr/lib/python2.7/urllib2.py", line 378, in _call_chain
    result = func(*args)
  File "/usr/lib/python2.7/urllib2.py", line 1207, in http_open
    return self.do_open(httplib.HTTPConnection, req)
  File "/usr/lib/python2.7/urllib2.py", line 1177, in do_open
    raise URLError(err)

相同的代码在我朋友的Mac上运行良好,但在我的ubuntu 12.04中失败了。

此外,我尝试在scrapper wiki中运行代码并成功完成。但很少有网址丢失(与mac相比)。这些行为有什么理由吗?

2 个答案:

答案 0 :(得分:4)

代码适用于我的Mac和朋友的mac。它从Ubuntu 12.04服务器的虚拟机实例运行良好。在您的特定环境中显然有一些东西 - 您的操作系统(Ubuntu桌面?)或网络导致它被废弃。例如,我的家庭路由器的默认设置会限制在x秒内对同一域的调用次数 - 如果我没有将其关闭,可能会导致此类问题。这可能是一些事情。

在此阶段,我建议您重构代码以捕获URLError并将有问题的网址留作重试。如果多次重试后失败,也会记录/打印错误。甚至可能会抛出一些代码来计算错误之间的调用时间。这比让你的脚本完全失败更好,你会得到反馈,看它是否只是导致问题的特定网址或时间问题(即在urlopen次调用x次之后它是否失败,或者是否x个urlopen次呼叫x次微/秒后失败。如果这是一个计时问题,插入循环中的简单time.sleep(1)可能会解决问题。

答案 1 :(得分:4)

的SyncMaster,

我最近遇到了同样的问题,跳到了一段时间没玩过的旧ubuntu盒子。此问题实际上是由于计算机上的DNS设置引起的。我强烈建议您检查DNS设置(/etc/resolv.conf并添加nameserver 8.8.8.8),然后再试一次,您应该会成功。