应用错误收集

时间：2018-08-27 11:28:28

标签： web-crawler nutch nutch2

我已经使用Hadoop / Hbase生态系统配置了Nutch 2.3.1来抓取Urdu语言内容。对于语言检测，我已经自定义提取程序并在那时找到语言。如果文档没有足够的乌尔都语（字节），那么我特意将其状态设置为“ gone”，以停止使用空内容扩展此边缘。我还必须找到新的乌尔都语域。

在选择要提取的网址时，我仍然遇到问题。随着时间的流逝，inlinks数据增加，其中包括很多不在Urdu中的URL。 Nutch选择（生成器）这些URL中约90％不包含Urdu内容。由于这个原因，我的资源被浪费了，因为获取的乌尔都语新内容很少。

我如何让Nutch偏爱那些可能存在乌尔都语内容的域文档？我认为我必须以某种方式自定义排名算法。有什么方法可以实现我的目标？

答案 0 :(得分：1)

我认为最简单的解决方案是为这些不重要的URL分配非常低的分数。并且，也许为生成器（Kafka docs）设置最低分数阈值。

当然，所有这些都带有某些问题，在某些情况下，您可能用光了URL来获取。因为，要么生成器找不到合适的候选对象（得分阈值，或者没有其他要提取的Urdu URL），要么所有URL（您发现的URL）都已经被提取。

通常，为这些极端情况做好计划。