从谷歌的研究中获取结果页面 - >到PDF

时间:2014-09-18 07:41:46

标签: python parsing pdf

以下是我尝试做的事情:通过python脚本,我想获得Google搜索结果的前5页,并将其作为PDF文件保存在文件夹中。

你有什么建议?

(1)我首先逐个解析HTML页面,然后找到一个工具将它们转换成PDF?

(2)我找到了一种方法来直接通过一个我不知道的mod完成所有步骤?

非常感谢您的见解!

1 个答案:

答案 0 :(得分:1)

使用标准Python库下载文件。然后,您可以使用http://www.xhtml2pdf.com/将页面转换为PDF。

注意:大多数网页都使用大量的JavaScript来做各种魔术。因此对于许多页面而言,只有完整的Web浏览器才能获得良好/有用的结果。如果遇到这个问题,那么就没有纯Python解决方案。 Try phantomjs as explained here

phantomjs rasterize.js 'http://en.wikipedia.org/w/index.php?title=Jakarta&printable=yes' jakarta.pdf

PS:我通过Google搜索python convert html to pdf找到了这些解决方案你应该偶尔尝试一下。