Apache Nutch - 仅索引Solr中的已修改文件

时间:2014-09-24 00:31:01

标签: solr nutch

我能够设置Apache Nutch并获取Solr中的索引数据。索引时我试图确保只有修改后的页面被索引。以下是我们对此提出的两个问题。

  • 是否有可能告诉Nutch发送'If-modified-since'标题 仅当网站已更改时,才会抓取网站并下载该网页 它最后一次被抓取。

  • 我可以看到Nutch正在形成MD5消化 检索到的页面内容,但即使摘要没有改变 (与之前的版本相比),它仍然是索引页面 在索尔在Nutch有任何设置,以确保是否 如果没有Solr中的索引,内容没有改变吗?

1 个答案:

答案 0 :(得分:0)

在这里回答我自己的问题,希望它对某人有所帮助 一旦我设置了adaptivefetchschedule,就可以看到Nutch没有拉动那些没有改变的页面。它是为了纪念if-modified-since header。