他有一个基于Hadoop的集群。我成功使用Nutch 1.15,并抓取了一些网址。 我已经安装了Solr 7.3.1,并且喜欢使用Cloud 1,所以当我使用此cmd运行SOlr时:
./solr-7.3.1/bin/solr start -c
我还在nutch-site.xml中设置了一些solr vars:
<property>
<name>solr.server.type</name>
<value>cloud</value>
</property>
<property>
<name>solr.server.url</name>
<value>http://localhost:8983/solr/nutch_collection/</value>
</property>
<property>
<name>solr.zookeeper.url</name>
<value>http://localhost:9983/</value>
</property>
这是索尔索引:
bash ./run_nutch.sh solrindex -Dsolr.server.url=http://localhost:8983/solr/nutch_collection/ crawl/crawldb -linkdb crawl/segments/*
没有错误和工作完成,但是我的收藏中没有文件...
我想念什么? 谢谢
答案 0 :(得分:0)
solr.server.url现在已从螺母1.15版本中删除。现在,您必须配置一个XML文件 (conf / index-writers.xml)
index-writers.xml中的默认值设置为http://localhost:8983/solr/nutch/
。因此,您既可以在xml文件中更改该值,也可以创建名为nutch
而不是n utch_collection
的内核并进行测试。