以下是我尝试做的事情:通过python脚本,我想获得Google搜索结果的前5页,并将其作为PDF文件保存在文件夹中。
你有什么建议?
(1)我首先逐个解析HTML页面,然后找到一个工具将它们转换成PDF?
(2)我找到了一种方法来直接通过一个我不知道的mod完成所有步骤?
非常感谢您的见解!
答案 0 :(得分:1)
使用标准Python库下载文件。然后,您可以使用http://www.xhtml2pdf.com/将页面转换为PDF。
注意:大多数网页都使用大量的JavaScript来做各种魔术。因此对于许多页面而言,只有完整的Web浏览器才能获得良好/有用的结果。如果遇到这个问题,那么就没有纯Python解决方案。 Try phantomjs as explained here:
phantomjs rasterize.js 'http://en.wikipedia.org/w/index.php?title=Jakarta&printable=yes' jakarta.pdf
PS:我通过Google搜索python convert html to pdf
找到了这些解决方案你应该偶尔尝试一下。