Apache nutch:在解析之前操作DOM

时间:2011-12-20 14:09:50

标签: java search indexing nutch

我希望在传递给nutch之前从页面响应中删除特定元素。 具体来说,我想用ie。

标记我的部分页面
 <div class="noindex">I shall not be indexed</div>

并且希望在nutch解析之前删除它们,以便之后在NutchDocument中不存在“我将不会被索引”。我计划用这个环绕我的导航,页眉,页脚内容,因为现在它们存在于索引中的每个文档中。

谢谢, 保罗

1 个答案:

答案 0 :(得分:3)

你有一些替代方法: