我已经为我的应用程序实现了lucene,除非你介绍了像日语字符这样的东西,否则它会很好用。
问题是,如果我有日语字符串こんにちは,このバイネイです我用こ搜索是第一个字符比它效果好,而如果我在搜索令牌搜索中使用多个日语字符(こんにち)失败并且没有找到任何文件。
lucene是否支持日文字符?为了让它发挥作用,有哪些设置?
答案 0 :(得分:4)
lucene的内置分析器不支持日语。
你需要安装一些像sen这样的分析器,它是mecab的java端口,非常受欢迎的日本分析器,它的速度很快。
有两种子类型叫做
答案 1 :(得分:3)
我不认为可以一个适用于所有语言的分析器。问题是不同的语言对词边界和词干有不同的规则(例如,泰语不使用空格来来分隔单词)。或者,如果有,我当然不想成为维护者!
您需要做的是将文本块“标记”为一种语言或另一种语言,并使用正确的分析器来处理该特定语言。您可以尝试通过角色分析“自动”检测语言(即主要使用日语片假名的文本可能是日语)
答案 2 :(得分:0)
您应该使用最近在Lucene 3.6.0中发布的新日本分析仪。它们基于最近在Kuromoji捐赠给Lucene的优秀LUCENE-3305形态分析仪。
在撰写本文时,文档有点稀疏,所以这里还有一些链接......
(这是Lucene的Java版本。)