我正在使用太阳黑子Solr搜索引擎开发rails app,我需要在Solr 4.1中索引电话号码。
例如,如果我有电话号码" +12(456)789-0101",我的页面应该由查询建立:
.......(456)789 .........(手机中间部分格式正确)
124567890101(仅限数字的完整手机)
我知道我可以使用:
EdgeNGramFilterFactory
用于将手机分成NGrams(正面和背面)WordDelimiterFilterFactory
用于连接数字和拆分部分电话。 所以,我做了什么:
在shema.xml
中创建新的Solr字段类型:
<fieldType name="phone_number" class="solr.TextField">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.EdgeNGramFilterFactory" minGramSize="3" maxGramSize="20" side="front"/>
<filter class="solr.EdgeNGramFilterFactory" minGramSize="3" maxGramSize="20" side="back"/>
</analyzer>
</fieldType>
<dynamicField name="*_phone" stored="false" type="phone_number" multiValued="true" indexed="true"/>
将可搜索的手机字段定义为&#39; * _ phone&#39;类型:
string :work_phone, :as => :work_phone, :stored => true do
work_phone.gsub(/\D/, '') if work_phone
end
string :mobile_phone, :as => :mobile_phone, :stored => true do
mobile_phone.gsub(/\D/, '') if mobile_phone
end
运行重建索引:
bundle exec rake sunspot:rebuild
但是当重建索引完成时它不起作用,我可以找到只搜索查询的结果:&#34;完整的手机&#34;和&#34;留下电话&#34;的一部分。使用&#34;手机的中间部分&#34;和#34;电话的正确部分&#34;没有给我任何结果。
我做错了吗?如何使手机部件正确烧焦? 请帮忙。谢谢!
答案 0 :(得分:2)
(仅评论Solr部分,不确定SunSpot如何映射它)
这里有一些不太正确的事情:
这是匹配后缀的好方法,考虑到剥离所有随机非数字内容和索引/查询的不对称性(来自我的AirPair Solr tutorial):
<fieldType name="phone" class="solr.TextField">
<analyzer type="index">
<tokenizer class="solr.KeywordTokenizerFactory" />
<filter class="solr.PatternReplaceFilterFactory" pattern="([^0-9])" replacement="" replace="all"/>
<filter class="solr.ReverseStringFilterFactory"/>
<filter class="solr.EdgeNGramFilterFactory" minGramSize="3" maxGramSize="30"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.KeywordTokenizerFactory" />
<filter class="solr.PatternReplaceFilterFactory" pattern="([^0-9])" replacement="" replace="all"/>
<filter class="solr.ReverseStringFilterFactory"/>
</analyzer>
</fieldType>
请注意,这对使用默认分析器在其中包含空格的查询没有帮助,因为它们将在 之前在空间上进行分析。如果您知道正在搜索电话号码,则可以引用搜索字符串或切换到其他(probably field)查询解析器。
如果你想要匹配中间,也许你不想要任何这些,只想要NGram,而不是EdgeNGram分析。
答案 1 :(得分:2)
Ectualy,这是我的代码,有效:
Schema.xml的:
<fieldType class="solr.TextField" name="phone_number" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.NGramFilterFactory" minGramSize="3" maxGramSize="20"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.WordDelimiterFilterFactory" catenateNumbers="1"/>
</analyzer>
</fieldType>
<dynamicField name="*_phone" stored="false" type="phone_number" multiValued="false" indexed="true"/>
<dynamicField name="*_phones" stored="false" type="phone_number" multiValued="false" indexed="true"/>
红宝石代码:
text :work_phone
text :work_phone_parts, :as => :work_phone do
"00#{work_phone.gsub(/\D/, '')}" if work_phone
end
text :mobile_phone
text :mobile_phone_parts, :as => :mobile_phone do
"00#{mobile_phone.gsub(/\D/, '')}" if mobile_phone
end