我正在尝试使用carrot2 API来集中日语文档。它抛出了这个警告:
org.carrot2.text.linguistic.DefaultTokenizerFactory:日语(ja)的Tokenizer不可用。这可能会降低日语内容的群集质量。
因此,群集过程失败,所有文档都属于“其他主题”群集。
有什么帮助可以解决这个问题吗?
提前致谢。
答案 0 :(得分:0)
Carrot 2 中提供的开源算法很遗憾不支持日语。增加常数以涵盖将来对日本人的支持。
或者,您可以尝试使用自定义语言管道运行Carrot 2 ,Carrot 2 Java API分发中的UsingCustomLanguageModel示例类显示如何执行此操作