web-crawler - 如何创建网络爬虫/蜘蛛/机器人？

时间：2010-03-21 23:52:50

标签： web-crawler robot

有没有办法让像weboutlook.com这样的网络机器人呢？我需要一些只在互联网上搜索URL的东西......我不需要链接，描述等。

在没有太技术化的情况下，最好的方法是什么？我想它甚至可能是一个运行PHP脚本从谷歌抓取URL的cronjob，还是有更好的方法？

非常感谢一个简单的例子或更多信息的链接。

答案 0 :(得分：0)

我刚看了一下你提到的网站 - 它似乎是为了获取一个域的信息，而不是抓取网址。

无论如何，你会写一个脚本从队列中获取一个url，获取页面内容，解析其中的url并将这些添加到队列中。然后将一个起始URL添加到队列中，并将该脚本作为crontab运行。

答案 1 :(得分：0)

DMOZ.org可以找到大约400万个唯一网址。允许以每秒不超过1页的频率爬过目录。作为爬虫，您可以使用HTTrack等站点下载软件（它支持符合robots.txt规则的选项）。您所要做的就是解析下载的URL页面然后（并在之后正确地归属网站）。