我希望在传递给nutch之前从页面响应中删除特定元素。 具体来说,我想用ie。
标记我的部分页面 <div class="noindex">I shall not be indexed</div>
并且希望在nutch解析之前删除它们,以便之后在NutchDocument中不存在“我将不会被索引”。我计划用这个环绕我的导航,页眉,页脚内容,因为现在它们存在于索引中的每个文档中。
谢谢, 保罗
答案 0 :(得分:3)
你有一些替代方法:
你可以为nutch写一个插件来做这件事。这个博客有一个用nutch做插件的例子:http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html
使用提取器内容:此处http://tomazkovacic.com/blog/122/evaluating-text-extraction-algorithms/有一些算法。也许这样做的最佳方式也是在nutch的插件中。