我正在开展一个项目,下载一个有2层离线浏览的网站。
虽然我遇到了CSS,JS,Image,
的问题现在我的代码保存索引html文件并将所有链接更改为Absolute以避免href问题。
但离线浏览不是正常工作。
我的问题是如何编写脚本以仅下载2层网站以进行离线浏览,并将所有CSS,JS和图像存储为完全脱机浏览?
PS。我知道我可以使用请求并将文件写入本地,但如何将其放入正确的文件夹?
例如。
/far/boo/image.png
或/far/boo/css.css
答案 0 :(得分:0)
感谢上面的评论让我找到了答案。
我最终使用requests.get("http://somesites.com/far.boo", stream=True, headers= head)
进行了一些循环来完成这项工作。
首先定义头部,
head = {"User-Agent": "Mozilla/5.0 ..."}
它有点难看,但工作正常。
参考:download image from url using python urllib but receiving HTTP Error 403: Forbidden