我将apache Nache与hadoop聚集在一起,但我对它们中的任何一个都不是很熟悉。在获取部分,当我查看FetcherStatus时,我发现异常的数量非常多(网址的一个第三个)。我的问题是我如何减少异常数量并增加成功网址的数量......
还有一个问题我想知道apache nutch中的异常URL会发生什么。在下次抓取时是否会忽略例外网址,否则它们仍会被使用?
非常感谢任何链接,答案和评论
答案 0 :(得分:0)
我认为您正在寻找conf / regex-urlfilter.txt文件。在此文件中,您可以定义要包含和使用正则表达式排除的内容。默认情况下会排除某些内容,例如包含问号的网址或以媒体格式结尾的网址。
任何与您定义的模式不匹配的URL都不会存储在数据库中,因此不会在下一个循环中使用。