Question

我已将我的应用程序从nutch 1.3升级到nutch 1.11。以前我曾经在浏览nutch 1.3时获得2 urls example.com/和example.com/index.html。

但升级后，我有两个。我想确认升级后的nutch是否足够智能来检测这个？

Answer 1

Nutch 1.11将抓取并索引example.com和example.com/index.html，具体为

两者均包含在种子中，或通过其中一种种子的链接获取
网址规范化或过滤规则同时接受并且不规范化一个
它们没有重复（相同的内容）
它们都是真实页面，没有重定向

关于2：regex-normalize.xml中有一个规则，它执行所描述的规范化。默认情况下它不活动（已注释掉）：

<!-- changes default pages into standard for /index.html, etc. into /
<regex>
  <pattern>/((?i)index|default)\.((?i)js[pf]{1}?[afx]?|cgi|cfm|asp[x]?|[psx]?htm[l]?|php[3456]?)(\?|&amp;|#|$)</pattern>
  <substitution>/$3</substitution>
</regex> -->

关于3：Nutch 1.8的重复数据删除得到了显着改善，现在索引上没有操作，但是CrawlDb中的标记重复。但是，您应该在日志中看到两个URL都被提取，稍后根据获取的内容的校验和进行复制。

对于nutch 1.11，example.com/和example.com/index.html是否一致？

1 个答案: