标签: web-crawler nutch
Nutch 1.x有这种能力,但我在nutch 2.x中找不到它。在nutch中是否有任何可以启用它的选项,或者我必须在我的头上完成它?
答案 0 :(得分:1)
Nutch 2.x将OPIC作为默认评分机制,如果您尚未在配置文件中取消激活它,如果您使用的是hbase,则可以在s:s列中看到分数。我建议使用带有hbase的hive for SQL语法。米奇还有另一个得分插件“scoring.link”,它的工作原理就像pageRank算法一样。您可以在配置文件中进行设置。