无法使用nutch解析flv和epub文件内容

时间:2013-05-13 08:46:27

标签: linux parsing solr web-crawler nutch

我正在使用apache nutch和solr,我的要求是解析flv和epub文件的内容,我使用下面的命令来解析文件

bin/nutch crawl urls -solr http://localhost:8983/solr/ 

我将文件网址保存在nutch的urls文件夹中。上面的命令正在运行,但当我尝试使用solr使用以下命令查看已解析的内容时,它只显示文件的URL。

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

请建议我......

由于

1 个答案:

答案 0 :(得分:0)

您的第二个命令是将已爬网的内容插入到SOLR索引中。

您需要在SOLR中运行搜索才能获取已抓取的内容。 类似于:

http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on

您可以将schema.xml中的“content”字段更改为stored =“true”,重新抓取,重新索引并发布SOLR搜索的结果吗?