我已将我的应用程序从nutch 1.3升级到nutch 1.11。以前我曾经在浏览nutch 1.3时获得2 urls example.com/和example.com/index.html。
但升级后,我有两个。我想确认升级后的nutch是否足够智能来检测这个?
答案 0 :(得分:1)
Nutch 1.11将抓取并索引example.com和example.com/index.html,具体为
关于2:regex-normalize.xml中有一个规则,它执行所描述的规范化。默认情况下它不活动(已注释掉):
<!-- changes default pages into standard for /index.html, etc. into /
<regex>
<pattern>/((?i)index|default)\.((?i)js[pf]{1}?[afx]?|cgi|cfm|asp[x]?|[psx]?htm[l]?|php[3456]?)(\?|&|#|$)</pattern>
<substitution>/$3</substitution>
</regex> -->
关于3:Nutch 1.8的重复数据删除得到了显着改善,现在索引上没有操作,但是CrawlDb中的标记重复。但是,您应该在日志中看到两个URL都被提取,稍后根据获取的内容的校验和进行复制。