我正在尝试使用技术文档自动下载网页的过程,我需要每年更新一次。
以下是一个示例页面:http://prod.adv-bio.com/ProductDetail.aspx?ProdNo=1197
在此页面中,所需的最终结果是将所有html链接保存为pdf文件。
我正在使用wget下载.pdf文件
我无法使用wget下载html文件,因为页面上的.html链接只能通过点击上一页来访问。
我尝试使用Selenium在Firefox中打开链接并将其打印到pdf,但过程很慢,经常错过链接,我的工作代理服务器强迫我每次需要访问页面时重新进行身份验证不同的产品。
我可以使用chromedriver打开一个chrome浏览器,但无法处理打印对话框,即使在尝试了pywinauto时,也可以回答类似问题。
我尝试使用Selenium截取html页面的截图,但无法在不捕获整个屏幕的情况下找到如何获取整个网页。
我已经浏览了大量与此主题相关的链接,但尚未找到令人满意的解决方案。
有更简洁的方法吗?