标签: nutch
问题是可能存在没有特定图像扩展名的图像。例如,Nutch2正在抓取以.ashx结尾的页面,但仍然是图片。
.ashx
有没有办法使用HTML标头过滤器排除图片:content-type: images/*或等效但不基于网址格式(regex-urlfilter.txt)?
content-type: images/*
regex-urlfilter.txt
答案 0 :(得分:0)
您可以通过编写扩展plugin界面的URLFilter来实现此目的。
在String filter(String urlString)方法中,您可以检查网址是否有一些模糊的扩展名,然后通过从服务器获取其HTTP标头值进一步验证,并检查其内容类型是否为图像,然后返回null否则返回URL。但我怀疑这不是一个非常有效的方法,因为只会为此验证目的生成许多无用的HTTP调用。
String filter(String urlString)
null
另一件事就是让它成为现实,Nutch无论如何都不会解析和/或索引图像。