我遇到了一个开源爬虫Bixo。 有人试过吗?你能分享一下学习吗?我们能否轻松构建定向爬虫(与Nutch / Heritrix相比)? 谢谢 Nayn
答案 0 :(得分:8)
我在一个大型社交网站(每天100M页面浏览量)中使用Bixo进行用户内容分类(基本上是用户在其中生成链接的任何内容)。
这是一个使用Cascading to
的相当复杂的工作流程如果你知道级联,那么Bixo就像其他任何级联组件一样,基本上期望URL作为输入,并将一堆页面相关信息作为输出发出。
我在开始时低估的一件事是,对于许多垂直爬虫而言,爬行方面只是“拼图”中的一小部分。围绕它的整个工作流程可能变得非常复杂,如果您使用另一个孤立的爬虫产品,您需要找到一种集成它的方法。使用Cascading的Bixo只是您工作流程的另一个输入。
Bixo本身似乎非常扎实。 Ken Krugler(首席开发人员)具有超级响应能力,能够解决一天内我遇到的一些悬而未决的问题(我的数据集中包含大量“脏”URL)。他有一个非常全面的自动化测试套件,确保Bixo按设计工作。
总的来说,我不能高度推荐它。整个系统是由我在6-9个月内构建的,我不认为我可以在那段时间内完成它。