在python中使用Beautiful Soup解析网页,不适用于特定页面

时间:2015-04-14 08:18:15

标签: python beautifulsoup mechanize

python的新手,我想我会尝试将网络抓取工具作为第一个项目。找到美丽的汤作为解决方案。一切都很好,除了我要抓取的ONE页面没有结果:(

以下是代码:

import requests
from bs4 import BeautifulSoup
from mechanize import Browser

def crawl_list(max_pages):
    mech = Browser()

    place = 1
    while place <= max_pages:
        url = "http://www.crummy.com/software/BeautifulSoup/bs4/doc/"
        page = mech.open(url)
        html = page.read()

        soup = BeautifulSoup(html)

        for link in soup.findAll('a'):
            href = link.get('href')
            print(href)

        place += 1

crawl_list(1)

此代码可以创造奇迹。我得到了完整的链接列表。但是,只要我将http://diseasesdatabase.com/disease_index_a.asp放入&#39; url&#39;的值,就没有骰子。

也许它与.asp有关?有人可以解开这个谜团吗?

我将此视为错误消息:

  

mechanise._response.httperror_seek_wrapper:HTTP错误410:已经消失

提前致谢。

0 个答案:

没有答案