zend-framework - Zend Lucene - 将瑞典角色称为化名

Zend Lucene - 将瑞典角色称为化名

时间：2009-12-30 14:11:37

标签： zend-framework lucene zend-search-lucene zend-lucene

我使用Zend Lucene索引瑞典文本。问题在于，lucene在瑞典字符tokenäö中标记了单词。例如，单词“världens”在索引中变成两个单词“v”和“ldens”。

有没有办法添加zend lucene应该接受的字符而不是标记化？

2 个答案:

答案 0 :(得分：5)

使用UTF-8 compatible text analyzer代替default text analyzer进行标记化。请注意，这需要PHP的PCRE（Perl兼容的正则表达式）库使用UTF-8支持进行编译（默认情况下，如果您使用与PHP捆绑的PCRE库，但如果使用共享库则可能未启用）。对于UTF-8兼容分析器的不区分大小写的版本，您还需要启用mbstring扩展。

答案 1 :(得分：2)

使用分析仪。请参阅有关text analysis，using utf8以及writing your own analyser文档的文档。我建议您只使用UTF-8分析仪。

Lucene外国人的问题
Zend Lucene - 将瑞典角色称为化名
将字符串拆分为瑞典语字符的单词
在Lucene中对Twitter帖子进行标记
ASCII字符而不是瑞典字符？
在Lucene.Net中标记主题标签
Lucene.Net中的标记关键字
URL中的瑞典字符
逃避只有特殊的特殊字符
令牌化学化合物

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？