我必须从enterprice networks中捕获日志记录索引。在当前实现的每个协议中,索引文件为年/月/日/ lucene文件,我想知道我是否只使用一个lucene索引文件并且每天我更新这个单个文件这个效果如何搜索时间?当我搜索当前的情况时,我正在查询当天的情况,这是相当大的增加。 当前:smtp /年/月/ ay / luceneindex
如果我在单个文件中执行smtp / luceneindex所有idex。让我知道prons和cons
答案 0 :(得分:1)
这取决于一系列因素。
当你说一个lucene文件? Lucene使用多种类型的文件存储索引并具有段,因此无论如何都有多个文件。
您为日志数据建立索引的内容是什么以及如何?
您使用什么来查询lucene索引,solr,elasticsearch,custom?
您是否正在运行单个实例,单机配置。
您是否可以在不同的主机上运行多个进程,一些用于搜索任务,另一些用于索引更新?
您的典型搜索查询是什么,例如针对这些情况进行优化。
有关分布式搜索选项,请查看http://elasticsearch.org/或http://lucene.apache.org/solr/。
lucene有在内存中运行的选项,比如RAMDirectory,你可能想调查一下。
一天文件的大小是否会对管理造成问题? 文件大小是否相对于磁盘而言是如此之大,带宽限制使复制,移动引入了问题。