Apache Nutch 2.3.1的基于域的评分算法

时间:2018-11-13 09:52:16

标签: java hadoop mapreduce nutch nutch2

我已经设置了Hadoop / Hbase和Nutch 2.3.1生态系统来从Web爬网几个域。爬虫不仅限于种子,而且会随着时间的增长而增长(从外部)。我必须根据自己的需要自定义排名。我想为每个域和任何文档集中设置分数,它将从其域而不是文档级别获取分数。只是为了使事情更清楚

S = S1 + S2 + S3 + ... + Sn
Sd = S/(total docs)

其中S是总分,即每个文档的总分。 Sd是总分的平均值。 S1(依此类推)是将基于其质量给予文档的分数。 我基本上想对新来的文档进行猜测,无论是否可取。

为此,它的实现是有问题的(可能是由于我是新手),并且我无法在Nutch的评分类中添加新文档。首先,是否可能,或者有其他替代方法和更好的解决方案?如果是,那么如果在运行时数据存储中不存在新的(域)文档,则如何添加。

0 个答案:

没有答案