标签: nutch
当抓取一个网站时,www.example.com有一个页面x.html,其中有4个孩子的外链,如果处理链接,我将获得所有4个子页面的x.html标题。
在这种情况下,我们在nutch中为孩子添加父标题?
答案 0 :(得分:1)
您可以编写HTMLParseFilter并将自定义元数据(see JIRA)添加到外部链接中,并将主页标题作为值。
顺便说一句,您可以通过Nutch user list