Apache Nutch 2.3.1 opic评分过滤器无法正常工作

时间:2018-05-09 05:05:06

标签: web-crawler nutch scoring nutch2

我在一个小型集群上配置了Nutch 2.3.1以及完整的Hadoop / Hbase生态系统。我很好奇Nutch中使用的得分算法。我在Nutch找到并使用了opic评分过滤器。为了找到它的影响,我在Nutch IN(dbupdate和生成阶段)的不同步骤中按照Nutch WIKI的指导检查得分。但是我发现每个文档得分总是保持为零,无论我如何运行迭代以及我获取多少文档。在opic实现中是否存在一些问题,或者我缺少一些配置。

我观察到包含现金的_csh_字段会从Hbase中的相​​应表中的fetcher阶段删除。

1 个答案:

答案 0 :(得分:0)

我已通过将更改放入OPICScoringFilter.java

解决了该问题

src / plugin / scoring-opic / src / java / org / apache / nutch / scoring / opic / OPICScoringFilter.java

我将其作为UTF8放在了Markers中。

-    row.getMetadata().put(CASH_KEY, ByteBuffer.wrap(Bytes.toBytes(score)));
+    row.getMarkers().put(CASH_KEY, new Utf8(Double.toString(score)));