应用错误收集

Nutch-Hadoop： - 我们如何只抓取要重新抓取的网址中的更新？

时间：2012-04-20 11:48:27

标签： java hadoop nutch

请有人告诉我如何识别要重新抓取的网址中的更新？我想在页面重新抓取时抓取页面的更新内容，而不是抓取已经抓取过的旧内容。提前致谢。 pragya ..

2 个答案:

答案 0 :(得分：1)

我认为您的意思是，只有在服务器端修改内容时，您才想重新抓取网址。您希望nutch识别它，从而巧妙地决定是否获取内容。

Nutch有这样的概念，即维护页面的“上次修改”时间并将其存储起来，并在重新抓取页面时不再使用。 They knew它可以节省磁盘空间和带宽，但由于其他不好的事情，它没有引起注意。 People had raised这个问题，但我仍然没有看到荷兰开发团队的任何活动。 Efforts were taken要改进，我仍然不确定当前版本使用“最后修改”字段的准确程度。

答案 1 :(得分：1)

你不能告诉nutch只获取页面的更新内容并忘记其余未更改的数据。它每次都会获得完整的内容。您可以巧妙地设置重新抓取频率，以便在更新页面后重新抓取它们。