在php中创建一个Web爬虫

时间:2013-06-10 13:31:21

标签: php web-crawler

我想用PHP构建一个Web爬虫,但我仍然对此感到困惑。我还没有找到可以工作的教程。

任何人都可以帮助我如何使用PHP构建爬虫吗?

3 个答案:

答案 0 :(得分:2)

构建Web爬网程序涉及打开页面,解析它们以获取您想要的数据以及链接到其他页面,并遵循这些链接。对于阅读页面,您需要查看fopen()函数。对于解析页面(包括识别链接),您需要查看regular expressions

答案 1 :(得分:2)

你也可以从这个php开源开始 sphider php search engine

答案 2 :(得分:2)

首先,你应该问问自己这个爬虫是如何工作的?

PHP的典型用途是动态准备网页(例如HTML代码)。 PHP生成HTML代码,服务器将准备好的文档发送给用户。这是在用户请求时完成的。通常,当用户打开您的页面时,您的网络抓取工具将会运行,在我看来这没有任何意义,因为它需要花费太多时间来抓取并且用户必须等待。

还有另一种可能性,即您要抓取网页的某些部分。在这种情况下,您可以将内容存储在某个数据库中,并使用PHP来查询数据库。但这不是一个爬虫,因为db引擎已经索引了所有内容并且可以找到你需要的一切。

第三种方法是从命令行(Windows和Linux)运行PHP程序的可能性,因此爬虫将由您运行,而不是由用户运行。有关如何实现此目标的更多信息,请参阅quinxorin's answer。这个答案很短,因为主题很广。

也可以compile PHP programs

在我看来,如果你是初学者,最好不要从这么大的任务开始。首先,尝试学习如何使用PHP简单网页,然后您将了解如何制作爬虫。