Nutch Crawling Path - 在solr中查看啤酒花

时间:2015-12-03 09:40:23

标签: solr web-crawler nutch

是否有可能跟踪nutch发现链接的深度以及该链接的父链接。

我的项目在solr中查看爬虫来自哪里可能非常有趣,因此我可以创建一个依赖树,用户可以在其中查看此链接与根连接的位置。

链接数据是否是nutch中的一个选项,还是我需要另一个程序来管理它?

1 个答案:

答案 0 :(得分:1)

Nutch保持linkdb中页面之间的关系,但在索引时默认不使用它。最简单的方法是编写自定义插件或破解得分深度,以便保留父链接。

可以通过激活评分深度插件来跟踪深度,您可以将其与索引元数据插件结合使用,以存储元数据' 深度'进入指数。

您可能会发现使用StormCrawler更容易执行此操作,因为它默认跟踪深度和完整路径。然后可以通过在indexer.md.filter中指定键名来将这些索引编入SOLR。