我可以抓取网站,下载特定页面,并将呈现的版本保存为PHP中的PDF吗?

时间:2012-11-26 18:59:51

标签: php pdf web-crawler

我只是需要澄清这个概念是否可行,或者我是否误解了爬虫的能力。

Say 1有一个包含100个网站/博客的列表,每天,我的程序(我假设它是一个爬虫的东西)将通过它们进行判断,如果匹配某些指定的短语,如“迈阿密热”或“勒布朗”詹姆斯“,它将继续下载该页面 - >将其转换为带有全文/图像的pdf并保存为pdf。

所以我的问题是;

  1. 这类事可能吗?请注意,我不想只是文本片段,但我希望整个页面好像是在一张纸上打印出来的?
  2. 这种类型的程序被称为抓取工具吗?
  3. 我计划构建来自http://phpcrawl.cuab.de/about.html
  4. 的代码

2 个答案:

答案 0 :(得分:1)

这是完全可能的,因为您将使用phpcrawl抓取网页使用wkhtmltopdf将您的html转换为pdf,因为它是

  1. 是的,通过使用wkhtmltopdf工具,您可以按原样转换网页。它是一个桌面基座s / w,所以你可以安装在你的机器
  2. 是Crawlers。
  3. 它是构建您想要构建的完美工具。

答案 1 :(得分:0)

  1. 是的,这是可能的。

  2. 您可以将其称为抓取工具或刮刀,因为您正在从网站上抓取数据。

  3. 将网站呈现为PDF可能是最困难的部分,他们的网络服务可以为您做到这一点。

    例如

    http://pdfmyurl.com/

    (我没有从属关系,我从未使用它们,这只是我检查时谷歌搜索结果中的第一个网站)