对于nutch 1.11,example.com/和example.com/index.html是否一致?

时间:2016-04-18 15:29:04

标签: nutch

我已将我的应用程序从nutch 1.3升级到nutch 1.11。以前我曾经在浏览nutch 1.3时获得2 urls example.com/和example.com/index.html。

但升级后,我有两个。我想确认升级后的nutch是否足够智能来检测这个?

1 个答案:

答案 0 :(得分:1)

Nutch 1.11将抓取并索引example.com和example.com/index.html,具体为

  1. 两者均包含在种子中,或通过其中一种种子的链接获取
  2. 网址规范化或过滤规则同时接受并且不规范化一个
  3. 它们没有重复(相同的内容)
  4. 它们都是真实页面,没有重定向
  5. 关于2:regex-normalize.xml中有一个规则,它执行所描述的规范化。默认情况下它不活动(已注释掉):

    <!-- changes default pages into standard for /index.html, etc. into /
    <regex>
      <pattern>/((?i)index|default)\.((?i)js[pf]{1}?[afx]?|cgi|cfm|asp[x]?|[psx]?htm[l]?|php[3456]?)(\?|&amp;|#|$)</pattern>
      <substitution>/$3</substitution>
    </regex> -->
    

    关于3:Nutch 1.8的重复数据删除得到了显着改善,现在索引上没有操作,但是CrawlDb中的标记重复。但是,您应该在日志中看到两个URL都被提取,稍后根据获取的内容的校验和进行复制。