应用错误收集

Apache Nutch只索引部分页面内容

时间：2011-07-08 20:34:31

标签： solr nutch

使用Apache Nutch v1.3仅从网页中提取某些特定内容。检查parse-html插件。似乎它使用tagsoup或nekohtml规范化每个html页面。这很好。我需要在网页上仅提取<span class='xxx'>和<span class='yyy'>元素内的文本。如果将提取的文本保存到不同的字段（例如content_xxx，content_yyy），那就太棒了。我的问题是：我应该编写自己的插件还是可以使用某种标准方式完成？

最好的方法是在规范化的网页上应用XSLT并获得结果。这可能吗？

3 个答案:

答案 0 :(得分：3)

构建您自己的ParsingFilter和IndexingFilter非常简单。 Nutch为您提供DOM文档，您只需遍历并搜索div。然后，您只需将新字段添加到索引和架构中即可。

有一些关于如何做到这一点的例子：

http://wiki.apache.org/nutch/HowToMakeCustomSearch

http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html

祝你好运

答案 1 :(得分：1)

默认情况下，解析后内容是平的。所以我认为你不能做你想做的事情，除非你能在索引步骤中提取你的内容，即一旦内容被夷为平地。

答案 2 :(得分：0)

您也可以使用这些可以配置为提取部分页面的自定义插件，而不是编写自己的插件：