Question

您好我遵循了本教程

它按预期工作。

如何将已爬网页面的种子保存到solr？

我希望能够向solr查询单词＆＃34; foobar＆＃34;并获得导致包含该单词的页面的所有种子。我想我必须在schema.xml中添加一个字段，但我不知道该文件中的行应该是什么。

Answer 1

我不知道Nutch有什么方法可以做到这一点;您可以多次运行Nutch，每次运行时只有一个种子，并通过以下方式将种子索引为Solr中的静态字段：

<property>
        <name>index.static</name>
        <value>seedUrl:theSeedForTheCurrentNutchRun</value>
</property>

这可行，但取决于您的种子如何相互关联，您可能会花更多时间爬行（如果页面可以通过多个种子访问。同样在这种情况下，最后一个种子将是Solr中记录的种子）