我想加载一个网页并使用命令行保存它(想要获得类似于保存页面的行为以及firefox或chrome中的完整页面。)
我尝试使用wget和httrack,他们正确地给了我html文件。但是如果格式错误的html浏览器在渲染时使用save进行校正,那么我们会得到更正的html但是在wget或htttrack的情况下不会发生这种情况。
是否有任何工具可以呈现页面并将页面与所有图像和闪存以及本地所有其他内容一起保存。
答案 0 :(得分:2)
当我想保存页面以供离线使用时,我使用名为“Scrapbook”的Firefox插件。当然,这不允许您的命令行要求。但是如果您使用像'htmlunit'这样的工具,那么您可以驱动Firefox浏览器转到您要保存的页面。
答案 1 :(得分:1)
curl http://stackoverflow.com > page.html
tidy page.html > page_clean.html
Tidy应该能够将任何无效的HTML标记转换为有效的XTML。
答案 2 :(得分:1)
我无法找到其他任何东西,所以最终在Firefox中打开页面并单击“保存为”按钮并保存它。使用firefox和xdotools为它编写脚本以自动执行整个任务。
感谢所有帮助和观看朋友。
答案 3 :(得分:1)
我觉得今天需要类似的东西(并且走xdotool
路径)。您可以在https://github.com/abiyani/automate-save-page-as
答案 4 :(得分:0)
有一些复杂的软件可以做到这一点: https://launchpad.net/shotfactory