如何在Nutch中仅抓取HTML?

时间:2012-10-05 19:48:10

标签: nutch

是否可以通过Nutch抓取/获取纯HTML页面(即没有图片,视频,flash,excel,exe,pdf或word文件)?

如何检查页面的Content-Type并通过Nutch仅提取text/html个页面?

1 个答案:

答案 0 :(得分:1)

修改conf/regex-urlfilter.txt

为ignore设置文件后缀:

-\.(jpg|gif|zip|ico)$