SOLR中索引和查询的最佳令牌分析器

时间:2013-05-29 02:55:45

标签: solr

我在数据库中有一个c ++代码库,并希望在SOLR中对其进行索引。什么是我应该用来索引和以后在SOLR中查询的最佳令牌分析器?

我尝试了一些不同的令牌分析器,并且正在考虑设置架构以按空格,句点,其他特殊字符等划分界限。

有没有更好的方法来像这样索引代码?

1 个答案:

答案 0 :(得分:3)

我将从一个简单的配置开始,并进一步添加以满足任何特定需求: -

<fieldType name="text" class="solr.TextField">
    <analyzer>
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.StopFilterFactory ... "/>       
        <filter class="solr.LowerCaseFilterFactory"/>    
    </analyzer>
</fieldType>

WhitespaceTokenizerFactory - 用空格标记来破坏空白处的标记
StopFilterFactory - 停止过滤以删除源代码中的常用术语,这些术语将出现在所有文件中 LowerCaseFilterFactory - 小写使搜索案例独立。