基于PHP的Web爬虫或基于JAVA的Web爬虫

时间:2010-07-27 07:52:36

标签: java php web-crawler

我对基于PHP的网络抓取工具有一些疑问,它可以像基于java线程的那样运行吗?我问它是因为,在java中线程可以一次又一次地执行,我不认为,PHP有类似线程功能的东西,你们可以说,哪个网络爬虫会更充分使用?基于PHP还是基于Java

2 个答案:

答案 0 :(得分:3)

而不是编写自己的使用以下之一。顺便说一下,基于Java的网络爬虫是首选。我最喜欢的Nutch。

基于Java:Nutch,Heritrix,JSpider,JoBo(简单爬虫)

基于PHP:PHPCrawl

答案 1 :(得分:0)

一般情况下,您需要跳过更多的箍来在PHP中运行长时间运行的任务,因为它更像是基于请求/响应的设置。