运行<nutch crawl =“”urls =“”-solr =“”http:=“”localhost:8983 =“”solr =“”>作业失败时,将Nutch 1.6与Solr 4.3 IOException集成。有什么想法吗?</nutch>

时间:2013-05-21 17:40:59

标签: solr indexing nutch

我正在尝试将Nutch 1.6与Solr 4.3集成(我将/apache-nutch-1.6/conf/schema-solr4.xml复制到collection1 / conf /并将文件重命名为schema.xml)。我还尝试将Nutch1.5.1与solr 4.3集成。在这两种情况下,我在运行时遇到IOException:

bash$ nutch crawl urls -solr http://127.0.0.1:8983/solr/

工作失败。有什么想法吗?

我认为自己有一个,不得不查看solr.log并将下面的这些字段添加到collection1 / conf

下的schema.xml中

<field name="host" type="string" stored="false" indexed="true"/> <field name="segment" type="string" stored="true" indexed="false"/> <field name="digest" type="string" stored="true" indexed="false"/> <field name="boost" type="float" stored="true" indexed="false"/> <field name="tstamp" type="date" stored="true" indexed="false"/> 它起作用了。

2 个答案:

答案 0 :(得分:0)

是的,请您在日志中提供更多详细信息。可能的原因可能是您需要在schema.xml文件中定义唯一键。像这样

<uniqueKey>id</uniqueKey>.

答案 1 :(得分:0)

症, 我只使用nutch 1.7和solr 4.4.0。 我在schema.xml文件中遇到问题。我发现架构文件中的更改很少,更改低于

复制你的usr / nutch 1.7 / conf / schema.xml以粘贴/usr/local/solr-4.4.0/example/solr/collection1/conf/schema并在你更改字段类型=“text”之后覆盖text_field。 改为

content = text class 改变这一点 englishPorterFilterFactory to SnowballPorterFilterFactory

添加

字段名称=“版本”type =“long”indexed =“true”stored =“true”

field name =“text”type =“text”indexed =“true”stored =“false”multiValued =“true”

它的工作正常对我来说..