应用错误收集

有关网络抓取技术的信息

时间：2009-05-18 15:29:23

标签： web-applications web-crawler

我正在构建一个小型网络爬虫，我想知道是否有人对实际实施有一些有趣的信息（只是抓取，没有搜索，没有排名，没有分类，只是爬行，亲吻:)。

为了记录，我已经拥有O'Reilly“Spidering hacks”和No Starch Press“Webbots，蜘蛛和屏幕抓取器”。这些书非常好，但它们往往简单易懂，并且没有详细说明缩放，存储数据，并行内容和其他更高级的主题。当然，我可以查看现有开源搜寻器的代码，但这将会发生在另一边（C ++爬虫似乎很复杂......）。我正在寻找一些有趣的/ aditionnal信息。

欢迎任何帮助，提前谢谢。

1 个答案:

答案 0 :(得分：2)

如果您对网络爬虫的实施细节感兴趣，可以研究现有的开源实施。以下是Open Source Crawlers in Java的列表。这些项目中的大多数都是不活跃但是Internet Archive的爬虫Heritix和Apache Nutch是成熟的活跃项目，需要学习很多东西。