我正在训练mahout naive-bayes分类器。我的培训数据具有以下性质:
Sports --> "text from different languages but related to sports"
Health --> "text from different languages but related to health"
在这种情况下,除了英语之外还会支持数据吗?或其他语言文字将被忽略。
答案 0 :(得分:2)
是和否。分类器很乐意对任何字符串进行操作,并且不会为它们赋予意义。语言无关紧要。然而,它绝不会理解"体育"和"驱逐出境"是不同语言的同一个词。