如何创建网络爬虫/蜘蛛/机器人?

时间:2010-03-21 23:52:50

标签: web-crawler robot

有没有办法让像weboutlook.com这样的网络机器人呢?我需要一些只在互联网上搜索URL的东西......我不需要链接,描述等。

在没有太技术化的情况下,最好的方法是什么?我想它甚至可能是一个运行PHP脚本从谷歌抓取URL的cronjob,还是有更好的方法?

非常感谢一个简单的例子或更多信息的链接。

2 个答案:

答案 0 :(得分:0)

我刚看了一下你提到的网站 - 它似乎是为了获取一个域的信息,而不是抓取网址。

无论如何,你会写一个脚本从队列中获取一个url,获取页面内容,解析其中的url并将这些添加到队列中。然后将一个起始URL添加到队列中,并将该脚本作为crontab运行。

答案 1 :(得分:0)

DMOZ.org可以找到大约400万个唯一网址。允许以每秒不超过1页的频率爬过目录。作为爬虫,您可以使用HTTrack等站点下载软件(它支持符合robots.txt规则的选项)。您所要做的就是解析下载的URL页面然后(并在之后正确地归属网站)。