Nutch解析HTML5标头标签

时间:2013-04-12 16:35:13

标签: solr nutch

我正在尝试使用Nutch 1.2解析HTML5页面,并遇到HTML5标记“header”包含在索引中的问题。

我曾经使用'parser.html.divIDsToExclude'排除HTML4标题,但这将不再符合我的要求。

是否有类似的插件可以排除已配置的HTML5标记

谢谢!

1 个答案:

答案 0 :(得分:0)

我已成功使用此插件与Nutch 1.6。

Nutch filter xpath

我确实有相反的要求,我想只包含一个特定的div。 :)

使用此插件,您可以使用XPath查询配置要提取的HTML文档的哪些部分。