Apache Nutch只索引部分页面内容

时间:2011-07-08 20:34:31

标签: solr nutch

使用Apache Nutch v1.3仅从网页中提取某些特定内容。检查parse-html插件。似乎它使用tagsoup或nekohtml规范化每个html页面。这很好。我需要在网页上仅提取<span class='xxx'><span class='yyy'>元素内的文本。如果将提取的文本保存到不同的字段(例如content_xxxcontent_yyy),那就太棒了。 我的问题是:我应该编写自己的插件还是可以使用某种标准方式完成?

最好的方法是在规范化的网页上应用XSLT并获得结果。这可能吗?

3 个答案:

答案 0 :(得分:3)

构建您自己的ParsingFilter和IndexingFilter非常简单。 Nutch为您提供DOM文档,您只需遍历并搜索div。然后,您只需将新字段添加到索引和架构中即可。

有一些关于如何做到这一点的例子:

http://wiki.apache.org/nutch/HowToMakeCustomSearch

http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html

祝你好运

答案 1 :(得分:1)

默认情况下,解析后内容是平的。 所以我认为你不能做你想做的事情,除非你能在索引步骤中提取你的内容,即一旦内容被夷为平地。

答案 2 :(得分:0)

您也可以使用这些可以配置为提取部分页面的自定义插件,而不是编写自己的插件: