标签: solr nutch
我正在尝试使用Nutch 1.2解析HTML5页面,并遇到HTML5标记“header”包含在索引中的问题。
我曾经使用'parser.html.divIDsToExclude'排除HTML4标题,但这将不再符合我的要求。
是否有类似的插件可以排除已配置的HTML5标记
谢谢!
答案 0 :(得分:0)
我已成功使用此插件与Nutch 1.6。
Nutch filter xpath
我确实有相反的要求,我想只包含一个特定的div。 :)
使用此插件,您可以使用XPath查询配置要提取的HTML文档的哪些部分。