是否存在Mercator Web Crawler的任何开源实现

时间:2011-04-11 20:29:04

标签: java web-crawler

Marc Najork和Allan Heydon撰写了一篇关于他们的Java,可扩展和可扩展的网络爬虫名为Mercator的优秀论文。

以下是Mercator网络抓取工具的一些资源:

有没有人见过抓取工具的任何实现(最好是java)?

更新
我遇到了链接的问题,我将尝试为引用的论文提供更好的链接。但我想我现在已经解决了这些问题。

3 个答案:

答案 0 :(得分:2)

我发现了一些应该与Mercator非常接近的Java爬虫:

欢迎其他参考。

答案 1 :(得分:1)

答案 2 :(得分:0)

StormCrawler是一个开源SDK,用于构建Apache Storm的低延迟,分布式网络抓取工具。该项目属于Apache许可证v2,由一组可重用的资源和组件组成,主要使用Java编写。