Nutch-Hadoop: - 我们如何只抓取要重新抓取的网址中的更新?

时间:2012-04-20 11:48:27

标签: java hadoop nutch

请有人告诉我如何识别要重新抓取的网址中的更新?我想在页面重新抓取时抓取页面的更新内容,而不是抓取已经抓取过的旧内容。 提前致谢。 pragya ..

2 个答案:

答案 0 :(得分:1)

我认为您的意思是,只有在服务器端修改内容时,您才想重新抓取网址。您希望nutch识别它,从而巧妙地决定是否获取内容。

Nutch有这样的概念,即维护页面的“上次修改”时间并将其存储起来,并在重新抓取页面时不再使用。 They knew它可以节省磁盘空间和带宽,但由于其他不好的事情,它没有引起注意。 People had raised这个问题,但我仍然没有看到荷兰开发团队的任何活动。 Efforts were taken要改进,我仍然不确定当前版本使用“最后修改”字段的准确程度。

答案 1 :(得分:1)

你不能告诉nutch只获取页面的更新内容并忘记其余未更改的数据。它每次都会获得完整的内容。您可以巧妙地设置重新抓取频率,以便在更新页面后重新抓取它们。