python的新手,我想我会尝试将网络抓取工具作为第一个项目。找到美丽的汤作为解决方案。一切都很好,除了我要抓取的ONE页面没有结果:(
以下是代码:
import requests
from bs4 import BeautifulSoup
from mechanize import Browser
def crawl_list(max_pages):
mech = Browser()
place = 1
while place <= max_pages:
url = "http://www.crummy.com/software/BeautifulSoup/bs4/doc/"
page = mech.open(url)
html = page.read()
soup = BeautifulSoup(html)
for link in soup.findAll('a'):
href = link.get('href')
print(href)
place += 1
crawl_list(1)
此代码可以创造奇迹。我得到了完整的链接列表。但是,只要我将http://diseasesdatabase.com/disease_index_a.asp放入&#39; url&#39;的值,就没有骰子。
也许它与.asp有关?有人可以解开这个谜团吗?
我将此视为错误消息:
mechanise._response.httperror_seek_wrapper:HTTP错误410:已经消失
提前致谢。