标签: nutch
是否可以通过Nutch抓取/获取纯HTML页面(即没有图片,视频,flash,excel,exe,pdf或word文件)?
如何检查页面的Content-Type并通过Nutch仅提取text/html个页面?
Content-Type
text/html
答案 0 :(得分:1)
修改conf/regex-urlfilter.txt:
conf/regex-urlfilter.txt
为ignore设置文件后缀:
-\.(jpg|gif|zip|ico)$