我正在构建一个小型网络爬虫,我想知道是否有人对实际实施有一些有趣的信息(只是抓取,没有搜索,没有排名,没有分类,只是爬行,亲吻:)。
为了记录,我已经拥有O'Reilly“Spidering hacks”和No Starch Press“Webbots,蜘蛛和屏幕抓取器”。这些书非常好,但它们往往简单易懂,并且没有详细说明缩放,存储数据,并行内容和其他更高级的主题。当然,我可以查看现有开源搜寻器的代码,但这将会发生在另一边(C ++爬虫似乎很复杂......)。我正在寻找一些有趣的/ aditionnal信息。
欢迎任何帮助,提前谢谢。
答案 0 :(得分:2)
如果您对网络爬虫的实施细节感兴趣,可以研究现有的开源实施。以下是Open Source Crawlers in Java的列表。这些项目中的大多数都是不活跃但是Internet Archive的爬虫Heritix和Apache Nutch是成熟的活跃项目,需要学习很多东西。