我正在使用Lucene.Net创建一个网站来搜索以PDF格式存储的书籍,文章等。例如,我需要能够根据作者姓名过滤搜索结果。这可以用Lucene完成吗?或者我是否需要DB来存储每个文档的过滤字段?
另外,索引文档的最佳方法是什么?我将有大约50个文档开始,并定期我将不得不添加一堆文档到索引 - 可能是通过Web表单。我应该使用DB来存储文档路径吗?
感谢。
答案 0 :(得分:2)
Lucene有几种不同的分析仪可以消除噪音并进行“阻塞”,这对您想要进行全文搜索很有帮助,但您仍然需要将PDF本身存储在某处。 Lucene.Net很乐意在文件系统上构建一个索引,你可以在它构建的Document中添加一个字段,称为“PATH”,其中包含文档的路径。
答案 1 :(得分:2)
以下列出了您需要做什么IMO: