Zend Lucene - 将瑞典角色称为化名

时间:2009-12-30 14:11:37

标签: zend-framework lucene zend-search-lucene zend-lucene

我使用Zend Lucene索引瑞典文本。问题在于,lucene在瑞典字符tokenäö中标记了单词。例如,单词“världens”在索引中变成两个单词“v”和“ldens”。

有没有办法添加zend lucene应该接受的字符而不是标记化?

2 个答案:

答案 0 :(得分:5)

使用UTF-8 compatible text analyzer代替default text analyzer进行标记化。请注意,这需要PHP的PCRE(Perl兼容的正则表达式)库使用UTF-8支持进行编译(默认情况下,如果您使用与PHP捆绑的PCRE库,但如果使用共享库则可能未启用) 。对于UTF-8兼容分析器的不区分大小写的版本,您还需要启用mbstring扩展。

答案 1 :(得分:2)

使用分析仪。请参阅有关text analysisusing utf8以及writing your own analyser文档的文档。我建议您只使用UTF-8分析仪。