使用Nutch或Heritrix进行定向爬行

时间:2010-07-15 11:01:18

标签: java nutch

我看过Nutch和Heritrix的爬行方式。它们都有生成/获取/更新周期的概念,它从一些种子URL开始,并在获取步骤后迭代结果URL。

范围/过滤逻辑适用于应用于提取的URL的正则表达式。

我想做一些非常具体的事情。 我不想从页面中提取所有网址,但我宁愿根据某些xpath获取网址。 原因是:    - 并非所有网址都可以使用精确的正则表达式进行分类    - 我可能会错过一些在外面给出的网址    - 我可能也想跟随'下一页'序列    - 特定爬网周期可能在每个深度中具有不同的基于xpath的过滤器。

有没有人用Heritrix的Nutch做过这样的事情?

由于 Nayn

1 个答案:

答案 0 :(得分:0)

我尝试用这两种方法创建一个POC。我需要外链来开始下一阶段的爬行与diff规则集。使用heritrix,由于所有外链都被丢弃,因此无法在最后一跳保留外链。使用Nutch,没有办法合并我自己的刮刀,它不会返回其内部数据结构(如ParseData等)所需的outlink等。此外,它与lucene和相关的索引系统紧密结合。 谢谢 Nayn

相关问题