Question

python的新手，我想我会尝试将网络抓取工具作为第一个项目。找到美丽的汤作为解决方案。一切都很好，除了我要抓取的ONE页面没有结果：（

以下是代码：

import requests
from bs4 import BeautifulSoup
from mechanize import Browser

def crawl_list(max_pages):
    mech = Browser()

    place = 1
    while place <= max_pages:
        url = "http://www.crummy.com/software/BeautifulSoup/bs4/doc/"
        page = mech.open(url)
        html = page.read()

        soup = BeautifulSoup(html)

        for link in soup.findAll('a'):
            href = link.get('href')
            print(href)

        place += 1

crawl_list(1)

此代码可以创造奇迹。我得到了完整的链接列表。但是，只要我将http://diseasesdatabase.com/disease_index_a.asp放入＆＃39; url＆＃39;的值，就没有骰子。

也许它与.asp有关？有人可以解开这个谜团吗？

我将此视为错误消息：

mechanise._response.httperror_seek_wrapper：HTTP错误410：已经消失

提前致谢。

在python中使用Beautiful Soup解析网页，不适用于特定页面

0 个答案: