从this guide开始,我执行了以下步骤:
java -Dauto -jar post.jar *.doc *.xls *.pdf
命令将文档发布到solr
。我的问题是我发布的文件是否已被编入索引? 我得到了怀疑,因为我从来没有为它定义任何架构。 当我上传大量文件并查询时,它会快吗?
答案 0 :(得分:0)
他们正在编入索引。在schema.xml文件中有一个预定义的模式,它将使用它。
我发现使用Solr的搜索时间非常快,有数万个文档。
修改强>
以下是我所指的设置指南:
Solr设置:http://amac4.blogspot.co.uk/2013/07/setting-up-solr-with-apache-tomcat-be.html
Nutch Crawling Web(先做):http://amac4.blogspot.co.uk/2013/07/configuring-nutch-to-crawl-urls.html
Nucth抓取文件系统(Do Second):http://amac4.blogspot.co.uk/2013/07/setting-up-nutch-to-crawl-filesystem.html