Question

我正在使用apache nutch和solr，我的要求是解析flv和epub文件的内容，我使用下面的命令来解析文件

bin/nutch crawl urls -solr http://localhost:8983/solr/

我将文件网址保存在nutch的urls文件夹中。上面的命令正在运行，但当我尝试使用solr使用以下命令查看已解析的内容时，它只显示文件的URL。

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

请建议我......

由于

Answer 1

您的第二个命令是将已爬网的内容插入到SOLR索引中。

您需要在SOLR中运行搜索才能获取已抓取的内容。类似于：

http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on

您可以将schema.xml中的“content”字段更改为stored =“true”，重新抓取，重新索引并发布SOLR搜索的结果吗？