我在数据库中有一个c ++代码库,并希望在SOLR中对其进行索引。什么是我应该用来索引和以后在SOLR中查询的最佳令牌分析器?
我尝试了一些不同的令牌分析器,并且正在考虑设置架构以按空格,句点,其他特殊字符等划分界限。
有没有更好的方法来像这样索引代码?
答案 0 :(得分:3)
我将从一个简单的配置开始,并进一步添加以满足任何特定需求: -
<fieldType name="text" class="solr.TextField">
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.StopFilterFactory ... "/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
WhitespaceTokenizerFactory - 用空格标记来破坏空白处的标记
StopFilterFactory - 停止过滤以删除源代码中的常用术语,这些术语将出现在所有文件中
LowerCaseFilterFactory - 小写使搜索案例独立。