使用nutch抓取子页面时获取父标题

时间:2014-06-15 06:43:14

标签: nutch

当抓取一个网站时,www.example.com有一个页面x.html,其中有4个孩子的外链,如果处理链接,我将获得所有4个子页面的x.html标题。

在这种情况下,我们在nutch中为孩子添加父标题?

1 个答案:

答案 0 :(得分:1)

您可以编写HTMLParseFilter并将自定义元数据(see JIRA)添加到外部链接中,并将主页标题作为值。

顺便说一句,您可以通过Nutch user list

发布更多相关受众群体