每日检查网站列表中的所有网页

时间:2012-02-02 21:15:24

标签: web-crawler link-checking

客人的网站 A 有合作伙伴计划 合作伙伴网站 B 包含 A 的链接 我需要以一定的频率(每天两次)检查所有合作伙伴网站(5000个网站)的所有网页,并提取从 B A 的所有链接。然后我必须检查一个regexp,如果url是以某种方式构建的。

我可以轻松地用PHP做到这一点,但是有一些严重的挑战可能是第三方解决方案已经面临

  • 我想利用带宽使用
  • 我希望尽快完成任务
  • 要检查的网页可能会让业余网页充满错误和不一致的网页
  • 我只想管理自上次检查后更改的网页
  • 该过程必须自动化(cron?或替代?)
  • ...
  • (随意扩展此列表)

但我不想建立一个 super-duper-mega-super-sophisticated-that-ever-ing-and-more-tools ...
我很想拥有一个小而轻巧的聪明解决方案。

你会如何解决这样的任务?

1 个答案:

答案 0 :(得分:0)

 - I want to leverage bandwith usage
 - I want the task to be done the fastest possible
 - The webpages to check could amateurs web pages full of errors and inconsistent html
 - I'd like to manage only webpages that are changed since the last time I checked them the process has to be automated (cron? or alternatives?)
 - (feel free to expand this list)

这些是非常重要的要求。

But I don't want to build a *super-duper-mega-ultra-sophisticated-that-does-everithing-and-more-tool*...

哦,好吧,没问题......现在你说了,我认为我们已经把它缩小到了一个超级超级 - 超级 - 超级 - 超级复杂 - 那就是 - 来自 - 和 - 更多工具 超级超级 - 超级 - 超级复杂 - 那种做得越来越多的工具

除了笑话,没有很多工具可以做你所描述的。但是,有一些非常强大的工具可以为您提供一个良好的框架来实现您的目标。你提到过PHP,但我认为你将在Java世界中取得更大的成功。特别是,我建议您查看Nutch

我希望有帮助:)。