标签: java nutch
我想做什么:写一个Nutch插件,从每个被抓取的页面接收解析的数据。我知道HtmlParseFilter可以完成我对HTML页面的需求,但我也想处理其他类型的内容。当Tika解析一个PDF或Word文档时,它会将结果传递给我注册的HtmlParseFilter吗?如果没有,有没有其他方法可以拦截Tika的输出?
HtmlParseFilter
答案 0 :(得分:3)
HtmlParseFilter确实处理所有内容类型(Tika可以)。它已在2.x分支中重命名为ParseFilter,以更准确地反映它的作用。