我刚刚开始使用Nutch和Solr。我只用一个种子URL运行了一次爬网。 我运行了这个命令:
bin/nutch crawl urls -dir crawl -solr http://localhost:8983/solr/ -depth 3 -topN 5
一切顺利,我假设Solr索引页面?那我现在该怎么去搜索?我去了 localhost:8983 / solr / admin / ,但当我点击搜索查询并点击搜索时,我得到了这个:
HTTP ERROR 400
Problem accessing /solr/select/.
Reason: undefined field text
我还尝试了tutorial中的一个示例,但是当我运行此命令时:
java -jar post.jar solr.xml monitor.xml
我明白了:
SimplePostTool: version 1.4
SimplePostTool: POSTing files to http://localhost:8983/solr/update..
SimplePostTool: POSTing file solr.xml
SimplePostTool: FATAL: Solr returned an error #400 ERROR: [doc=SOLR1000] unknown field 'name'
我的最终目标是以某种方式将此数据添加到Accumulo并将其用于搜索引擎。
答案 0 :(得分:2)
我假设您正在使用Nutch 1.4或更高版本。如果是这种情况,则需要将solr / conf / schema.xml文件中添加的字段类型从“text”更改为“text_general”,不带引号。
我正在努力实现类似的目标并使用该修复程序至少让solr正常工作,尽管我仍然无法通过solr来搜索索引的网站。希望这会有所帮助,如果你让它工作,请告诉我。