支持mahout分类器中的其他语言

时间:2013-03-21 06:01:29

标签: machine-learning mahout

我正在训练mahout naive-bayes分类器。我的培训数据具有以下性质:

 Sports --> "text from different languages but related to sports"
 Health --> "text from different languages but related to health"

在这种情况下,除了英语之外还会支持数据吗?或其他语言文字将被忽略。

1 个答案:

答案 0 :(得分:2)

是和否。分类器很乐意对任何字符串进行操作,并且不会为它们赋予意义。语言无关紧要。然而,它绝不会理解"体育"和"驱逐出境"是不同语言的同一个词。