carrot2 api不支持日语

时间:2015-10-20 04:16:51

标签: api carrot2

我正在尝试使用carrot2 API来集中日语文档。它抛出了这个警告:

org.carrot2.text.linguistic.DefaultTokenizerFactory:日语(ja)的Tokenizer不可用。这可能会降低日语内容的群集质量。

因此,群集过程失败,所有文档都属于“其他主题”群集。

有什么帮助可以解决这个问题吗?

提前致谢。

1 个答案:

答案 0 :(得分:0)

Carrot 2 中提供的开源算法很遗憾不支持日语。增加常数以涵盖将来对日本人的支持。

或者,您可以尝试使用自定义语言管道运行Carrot 2 ,Carrot 2 Java API分发中的UsingCustomLanguageModel示例类显示如何执行此操作