我只是需要澄清这个概念是否可行,或者我是否误解了爬虫的能力。
Say 1有一个包含100个网站/博客的列表,每天,我的程序(我假设它是一个爬虫的东西)将通过它们进行判断,如果匹配某些指定的短语,如“迈阿密热”或“勒布朗”詹姆斯“,它将继续下载该页面 - >将其转换为带有全文/图像的pdf并保存为pdf。
所以我的问题是;
答案 0 :(得分:1)
这是完全可能的,因为您将使用phpcrawl抓取网页使用wkhtmltopdf将您的html转换为pdf,因为它是
答案 1 :(得分:0)
是的,这是可能的。
您可以将其称为抓取工具或刮刀,因为您正在从网站上抓取数据。
将网站呈现为PDF可能是最困难的部分,他们的网络服务可以为您做到这一点。
例如
(我没有从属关系,我从未使用它们,这只是我检查时谷歌搜索结果中的第一个网站)