Marc Najork和Allan Heydon撰写了一篇关于他们的Java,可扩展和可扩展的网络爬虫名为Mercator的优秀论文。
以下是Mercator网络抓取工具的一些资源:
有没有人见过抓取工具的任何实现(最好是java)?
更新
我我遇到了链接的问题,我将尝试为引用的论文提供更好的链接。但我想我现在已经解决了这些问题。
答案 0 :(得分:2)
答案 1 :(得分:1)
答案 2 :(得分:0)
StormCrawler是一个开源SDK,用于构建Apache Storm的低延迟,分布式网络抓取工具。该项目属于Apache许可证v2,由一组可重用的资源和组件组成,主要使用Java编写。