Nutch 2从抓取中排除内容类型图像

时间:2016-08-09 07:36:30

标签: nutch

问题是可能存在没有特定图像扩展名的图像。例如,Nutch2正在抓取以.ashx结尾的页面,但仍然是图片。

有没有办法使用HTML标头过滤器排除图片:content-type: images/*或等效但不基于网址格式(regex-urlfilter.txt)?

1 个答案:

答案 0 :(得分:0)

您可以通过编写扩展plugin界面的URLFilter来实现此目的。

String filter(String urlString)方法中,您可以检查网址是否有一些模糊的扩展名,然后通过从服务器获取其HTTP标头值进一步验证,并检查其内容类型是否为图像,然后返回null否则返回URL。但我怀疑这不是一个非常有效的方法,因为只会为此验证目的生成许多无用的HTTP调用。

另一件事就是让它成为现实,Nutch无论如何都不会解析和/或索引图像。