我是splunk的新手。只有3天的时间。我一直在使用Lucene以现场和非现场数据的形式索引和搜索原始数据。我对lucenes搜索性能印象非常深刻。我想知道体验社区是否可以在这里指导一些splunk的功能。特别是对于我对Lucene已经知道的splunk的比较。不仅限于搜索。
是否可以对splunk进行基于同义词的模糊搜索?
我知道这一定是一个长度问题,但我肯定想知道有经验的人对splunk的一些观点,希望不要偏离SO的规则。
谢谢。
答案 0 :(得分:5)
这可能是对Splunk(用于索引时间序列,机器生成数据)和Lucene(最初设计用于索引人工生成的文本文档)之间差异的长期讨论。我们可以从你的问题开始。
Splunk没有停止词的概念。默认情况下,Splunk会对事件中找到的所有关键字进行索引,如分段规则所定义。
Splunk提供通配符搜索和短语搜索,但索引不提供本机邻近搜索或正则表达式搜索。对于那些,我们依赖于搜索处理管道中的后续命令。
Splunk积极压缩我们存储的rawdata,我们花了很多精力通过显式压缩和其他低占用空间数据结构使索引尽可能小。通常,您可以预期rawdata将是原始数据大小的10%,索引是原始数据大小的20-40%,具体取决于熵。一起Splunk通常需要原始数据的30-50%作为存储。
索引本身不提供同义词支持,因为这基本上是人类文本的问题。然而,我们提供了一个类似的概念,在事件类型中,它可以用来表示有意义的查询类,包括同义词。