我正在考虑使用Python下载cplusplus.com's C library。我想完全下载它,然后将其转换为链接文档,如Python文档。这是我最初尝试下载首页。
#! python3
import urllib.request
filehandle = urllib.request.urlopen('http://www.cplusplus.com/reference/clibrary/')
with open('test.html', 'w+b') as f:
for line in filehandle:
f.write(line)
filehandle.close()
首页正在正确下载,但其外观与原始网页完全不同。从不同的角度来看,我的意思是在我运行脚本下载网页后,原始网页上的漂亮格式已经消失。
这是什么原因?
<小时/> 有人可以解释一下这个问题吗?有什么问题?不允许新手问题?
答案 0 :(得分:2)
这是因为您的抓取版本不包含页面链接的层叠样式表(CSS)。它也不会包含链接到任何一个的任何图像或JavaScript。如果要获取链接文件,则必须解析为其扫描的源代码。