我已经抓取了一个网站,并提取了一些我需要下载并保存在本地计算机上的网址:
我正在使用以下代码:
for dept in deptlist:
i=0
thisurl = "http://www.iitkgp.ac.in/commdir3/list.php?division=3&deptcode="+dept
if not os.path.isdir(dept):
os.makedirs(dept)
os.chdir(dept)
print(os.getcwd())
# print(thisurl)
response1 = requests.get(thisurl)
# print(response.content)
soup1=BeautifulSoup(response1.content)
# print(soup.prettify())
p = re.compile('^/fac-profiles/*')
links1=soup1.find_all("a")
for link in links1:
if p.match(link.get("href")):
# print("http://www.iitkgp.ac.in/%s" %(link.get("href")))
url2d="http://www.iitkgp.ac.in/"+link.get("href")
filename=""+str(i)+".html"
print(filename)
print(url2d)
urllib.request.urlretrieve(url2d,filename)
i=i+1
os.chdir("..")
但这不会下载整个网页没有css文件,所以当我打开html页面时它显示为空白。 请有人建议一个更好的方法吗?