Python - 下载并保存完整的网页

时间:2016-02-27 06:26:31

标签: python-3.x download web-crawler urllib

我已经抓取了一个网站,并提取了一些我需要下载并保存在本地计算机上的网址:

我正在使用以下代码:

for dept in deptlist:
    i=0
    thisurl = "http://www.iitkgp.ac.in/commdir3/list.php?division=3&deptcode="+dept
    if not os.path.isdir(dept):
        os.makedirs(dept)
    os.chdir(dept)
    print(os.getcwd())
    # print(thisurl)
    response1 = requests.get(thisurl)
    # print(response.content)
    soup1=BeautifulSoup(response1.content)
    # print(soup.prettify())

    p = re.compile('^/fac-profiles/*')
    links1=soup1.find_all("a")
    for link in links1:
        if p.match(link.get("href")):
            # print("http://www.iitkgp.ac.in/%s" %(link.get("href")))
            url2d="http://www.iitkgp.ac.in/"+link.get("href")
            filename=""+str(i)+".html"
            print(filename)
            print(url2d)
            urllib.request.urlretrieve(url2d,filename)
            i=i+1
    os.chdir("..")

但这不会下载整个网页没有css文件,所以当我打开html页面时它显示为空白。 请有人建议一个更好的方法吗?

0 个答案:

没有答案