我正在使用apache nutch和solr,我的要求是解析flv和epub文件的内容,我使用下面的命令来解析文件
bin/nutch crawl urls -solr http://localhost:8983/solr/
我将文件网址保存在nutch的urls文件夹中。上面的命令正在运行,但当我尝试使用solr使用以下命令查看已解析的内容时,它只显示文件的URL。
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
请建议我......
由于
答案 0 :(得分:0)
您的第二个命令是将已爬网的内容插入到SOLR索引中。
您需要在SOLR中运行搜索才能获取已抓取的内容。 类似于:
http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on
您可以将schema.xml中的“content”字段更改为stored =“true”,重新抓取,重新索引并发布SOLR搜索的结果吗?