Mahout“分类器”用于文档

时间:2014-03-29 22:50:51

标签: classification mahout

我有一项任务,我需要对几百万种产品进行分类。今天出现了一个mahout并开始阅读一些表格。

至于现在,我对mahout中的分类器的术语有点困惑。我认为使用分类器可以将文档分类到它匹配的任何类别。

然后,在阅读了几张纸后,我觉得更像是文件是a or !a而不是检查文件是否a or b or c or d ..

我正在寻找的是一种检查a or b or c or d ..等多种可能性的解决方案。我是在一条木路上与mahout还是mahout也为这些任务而建造?我想对这部分使用有监督的学习算法,我真的不知道mahout是否适合这个框架,所以我现在有点困惑。

任何指针?

1 个答案:

答案 0 :(得分:1)

我认为你可能会为你的问题做好工作。我自己还没有完成,所以不能给你具体细节,但这里有两种方法:

1)在N个可能性中的每一个上训练二元分类器:a或!a,b或!b,c或!c,d或!d ...,然后从N个结果中选择最高概率得到分配。典型分类器输出概率而不是True / False

2)使用mahout https://medium.com/p/4ea08a4662ab

检查这个以进行多标签分类