假设我需要为文本文档构建存储空间。存储应包含文档(仅文本文件)及其元数据:每个文档的创建日期和几十个标记。存储的文件数量约为10 ^ 6(每个文件约为10K)。
主要语言为Java
,存储应部署在Windows
。
用户应该能够按日期范围和标记将文档及其元数据存储在存储和搜索文档中:例如:使用标记获取上周的所有文档: tag1 和 tag2 。
假设我们将文档存储在文件系统中并添加索引来存储文档名称(路径),日期和标记。你会如何建立索引?你会使用RDBMS(例如mySQL
)吗?您会使用Lucene
或任何其他全文搜索引擎吗?
答案 0 :(得分:2)
为什么不使用JackRabbit,这是一个兼容JSR-170的Java文档存储?
Apache Jackrabbit™内容存储库完全符合要求 Java Technology API的内容存储库的实现(JCR, 在JSR 170和283中指定。
内容存储库是支持的分层内容存储库 结构化和非结构化内容,全文搜索,版本控制, 交易,观察等。
注意(重新提出你的问题)它使用Lucene。