Question

以下是我尝试做的事情：通过python脚本，我想获得Google搜索结果的前5页，并将其作为PDF文件保存在文件夹中。

你有什么建议？

（1）我首先逐个解析HTML页面，然后找到一个工具将它们转换成PDF？

（2）我找到了一种方法来直接通过一个我不知道的mod完成所有步骤？

非常感谢您的见解！

Answer 1

使用标准Python库下载文件。然后，您可以使用http://www.xhtml2pdf.com/将页面转换为PDF。

注意：大多数网页都使用大量的JavaScript来做各种魔术。因此对于许多页面而言，只有完整的Web浏览器才能获得良好/有用的结果。如果遇到这个问题，那么就没有纯Python解决方案。 Try phantomjs as explained here：

phantomjs rasterize.js 'http://en.wikipedia.org/w/index.php?title=Jakarta&printable=yes' jakarta.pdf

PS：我通过Google搜索python convert html to pdf找到了这些解决方案你应该偶尔尝试一下。