在Nutch 1.5中使用HtmlParseFilter和Tika解析器

时间:2012-11-07 02:05:09

标签: java nutch

我想做什么:写一个Nutch插件,从每个被抓取的页面接收解析的数据。我知道HtmlParseFilter可以完成我对HTML页面的需求,但我也想处理其他类型的内容。当Tika解析一个PDF或Word文档时,它会将结果传递给我注册的HtmlParseFilter吗?如果没有,有没有其他方法可以拦截Tika的输出?

1 个答案:

答案 0 :(得分:3)

HtmlParseFilter确实处理所有内容类型(Tika可以)。它已在2.x分支中重命名为ParseFilter,以更准确地反映它的作用。