我有一项任务,我需要对几百万种产品进行分类。今天出现了一个mahout并开始阅读一些表格。
至于现在,我对mahout中的分类器的术语有点困惑。我认为使用分类器可以将文档分类到它匹配的任何类别。
然后,在阅读了几张纸后,我觉得更像是文件是a or !a
而不是检查文件是否a or b or c or d ..
。
我正在寻找的是一种检查a or b or c or d ..
等多种可能性的解决方案。我是在一条木路上与mahout还是mahout也为这些任务而建造?我想对这部分使用有监督的学习算法,我真的不知道mahout是否适合这个框架,所以我现在有点困惑。
任何指针?
答案 0 :(得分:1)
我认为你可能会为你的问题做好工作。我自己还没有完成,所以不能给你具体细节,但这里有两种方法:
1)在N个可能性中的每一个上训练二元分类器:a或!a,b或!b,c或!c,d或!d ...,然后从N个结果中选择最高概率得到分配。典型分类器输出概率而不是True / False
2)使用mahout https://medium.com/p/4ea08a4662ab
检查这个以进行多标签分类