使用Apache Nutch v1.3
仅从网页中提取某些特定内容。检查parse-html插件。似乎它使用tagsoup或nekohtml规范化每个html页面。这很好。我需要在网页上仅提取<span class='xxx'>
和<span class='yyy'>
元素内的文本。如果将提取的文本保存到不同的字段(例如content_xxx
,content_yyy
),那就太棒了。
我的问题是:我应该编写自己的插件还是可以使用某种标准方式完成?
最好的方法是在规范化的网页上应用XSLT并获得结果。这可能吗?
答案 0 :(得分:3)
构建您自己的ParsingFilter和IndexingFilter非常简单。 Nutch为您提供DOM文档,您只需遍历并搜索div。然后,您只需将新字段添加到索引和架构中即可。
有一些关于如何做到这一点的例子:
http://wiki.apache.org/nutch/HowToMakeCustomSearch
http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html
祝你好运答案 1 :(得分:1)
默认情况下,解析后内容是平的。 所以我认为你不能做你想做的事情,除非你能在索引步骤中提取你的内容,即一旦内容被夷为平地。
答案 2 :(得分:0)
您也可以使用这些可以配置为提取部分页面的自定义插件,而不是编写自己的插件: