我正在努力创建一个来自精神组织的特定文学/引用/等的在线搜索, 虽然可以搜索的项目数量(主要是PDF,HTML或纯文本)有限, 我想提供全面的搜索过滤器(Kayak.com风格)。
这意味着我的数据需要按照这样的方式进行组织,以便根据作者姓名,来源类型(无论是书籍,演讲,报价等)进行过滤, 何时,何地和其他过滤器。这意味着,每个文献项目都必须将此“附加信息”与之相关联。
我的问题是,如何构建此搜索引擎?我听说过卢塞恩,和 最近还发现了一个用于搜索的.NET库Searcharoo,它将索引位于本地目录中的所有PDF文件。
我想知道的是我是否应该使用Searcharoo,或者我应该创建自己的数据库来存储文件路径和查询 包含PDF文件文本的列。或者我可以使用Searcharoo或类似的东西 能够使用存储在DB中的附加信息标记每个索引文件吗?或者我应该采取完全不同的方法?
我很感激有关此的任何意见......
谢谢!
答案 0 :(得分:0)
我听说CouchDB是为此设计的,但说实话,我以前从未使用过它。
答案 1 :(得分:0)
我使用Lucene.NET制作包含其他元数据的全文索引。如果您不介意使用Java端口,它会稳定,快速且记录完备。