我使用Zend Lucene索引瑞典文本。问题在于,lucene在瑞典字符tokenäö中标记了单词。例如,单词“världens”在索引中变成两个单词“v”和“ldens”。
有没有办法添加zend lucene应该接受的字符而不是标记化?
答案 0 :(得分:5)
使用UTF-8 compatible text analyzer代替default text analyzer进行标记化。请注意,这需要PHP的PCRE(Perl兼容的正则表达式)库使用UTF-8支持进行编译(默认情况下,如果您使用与PHP捆绑的PCRE库,但如果使用共享库则可能未启用) 。对于UTF-8兼容分析器的不区分大小写的版本,您还需要启用mbstring扩展。
答案 1 :(得分:2)
使用分析仪。请参阅有关text analysis,using utf8以及writing your own analyser文档的文档。我建议您只使用UTF-8分析仪。