我对基于PHP的网络抓取工具有一些疑问,它可以像基于java线程的那样运行吗?我问它是因为,在java中线程可以一次又一次地执行,我不认为,PHP有类似线程功能的东西,你们可以说,哪个网络爬虫会更充分使用?基于PHP还是基于Java
答案 0 :(得分:3)
而不是编写自己的使用以下之一。顺便说一下,基于Java的网络爬虫是首选。我最喜欢的Nutch。
基于Java:Nutch,Heritrix,JSpider,JoBo(简单爬虫)
基于PHP:PHPCrawl
答案 1 :(得分:0)
一般情况下,您需要跳过更多的箍来在PHP中运行长时间运行的任务,因为它更像是基于请求/响应的设置。