我已经使用Hadoop / Hbase生态系统配置了Nutch 2.3.1来抓取Urdu语言内容。对于语言检测,我已经自定义提取程序并在那时找到语言。如果文档没有足够的乌尔都语(字节),那么我特意将其状态设置为“ gone”,以停止使用空内容扩展此边缘。我还必须找到新的乌尔都语域。
在选择要提取的网址时,我仍然遇到问题。随着时间的流逝,inlinks数据增加,其中包括很多不在Urdu中的URL。 Nutch选择(生成器)这些URL中约90%不包含Urdu内容。由于这个原因,我的资源被浪费了,因为获取的乌尔都语新内容很少。
我如何让Nutch偏爱那些可能存在乌尔都语内容的域文档?我认为我必须以某种方式自定义排名算法。有什么方法可以实现我的目标?
答案 0 :(得分:1)
我认为最简单的解决方案是为这些不重要的URL分配非常低的分数。并且,也许为生成器(Kafka docs)设置最低分数阈值。
当然,所有这些都带有某些问题,在某些情况下,您可能用光了URL来获取。因为,要么生成器找不到合适的候选对象(得分阈值,或者没有其他要提取的Urdu URL),要么所有URL(您发现的URL)都已经被提取。
通常,为这些极端情况做好计划。