我正在尝试将Nutch 1.6与Solr 4.3集成(我将/apache-nutch-1.6/conf/schema-solr4.xml复制到collection1 / conf /并将文件重命名为schema.xml)。我还尝试将Nutch1.5.1与solr 4.3集成。在这两种情况下,我在运行时遇到IOException:
bash$ nutch crawl urls -solr http://127.0.0.1:8983/solr/
工作失败。有什么想法吗?
我认为自己有一个,不得不查看solr.log并将下面的这些字段添加到collection1 / conf
下的schema.xml中 <field name="host" type="string" stored="false" indexed="true"/>
<field name="segment" type="string" stored="true" indexed="false"/>
<field name="digest" type="string" stored="true" indexed="false"/>
<field name="boost" type="float" stored="true" indexed="false"/>
<field name="tstamp" type="date" stored="true" indexed="false"/>
它起作用了。
答案 0 :(得分:0)
是的,请您在日志中提供更多详细信息。可能的原因可能是您需要在schema.xml文件中定义唯一键。像这样
<uniqueKey>id</uniqueKey>.
答案 1 :(得分:0)
症, 我只使用nutch 1.7和solr 4.4.0。 我在schema.xml文件中遇到问题。我发现架构文件中的更改很少,更改低于
复制你的usr / nutch 1.7 / conf / schema.xml以粘贴/usr/local/solr-4.4.0/example/solr/collection1/conf/schema并在你更改字段类型=“text”之后覆盖text_field。 改为
content = text class 改变这一点 englishPorterFilterFactory to SnowballPorterFilterFactory
添加后
字段名称=“版本”type =“long”indexed =“true”stored =“true”
field name =“text”type =“text”indexed =“true”stored =“false”multiValued =“true”
它的工作正常对我来说..