您好我遵循了本教程
http://wiki.apache.org/nutch/NutchTutorial
它按预期工作。
如何将已爬网页面的种子保存到solr?
我希望能够向solr查询单词" foobar"并获得导致包含该单词的页面的所有种子。我想我必须在schema.xml中添加一个字段,但我不知道该文件中的行应该是什么。
答案 0 :(得分:0)
我不知道Nutch有什么方法可以做到这一点;您可以多次运行Nutch,每次运行时只有一个种子,并通过以下方式将种子索引为Solr中的静态字段:
<property>
<name>index.static</name>
<value>seedUrl:theSeedForTheCurrentNutchRun</value>
</property>
这可行,但取决于您的种子如何相互关联,您可能会花更多时间爬行(如果页面可以通过多个种子访问。同样在这种情况下,最后一个种子将是Solr中记录的种子)