对多个类别中的项目进行分类

时间:2012-08-13 10:36:54

标签: classification mahout

我正在开发一个新闻分类系统,其中将特定新闻项目分配给组织或公司名称。例如,标有“Apple将于2012年9月推出新iPhone”的新闻项目被归类为“Apple”新闻。 到目前为止,在对分类器进行了一系列主题训练之后,例如Apple新闻,谷歌新闻,微软新闻,三星新闻,美国银行新闻等工作完美,我从一个训练有素的模型中获得了近99%的正确分类实例。 现在的问题是将诸如“三星和谷歌准备攻击苹果”之类的新闻分为三个主题,“苹果”,“三星”和“谷歌”。

我在这里的问题是如何使用Mahouts分类将单个项目分类为多个类别。我在这个帖子http://mail-archives.apache.org/mod_mbox/mahout-user/201206.mbox/%3C20120607223156.GA26283@opus.istwok.net%3E中看到了类似的问题。

Ted Dunning给出了一个有趣的答案,为多个主题制作单独的类别,但在我的情况下,组合很多。我必须将新闻分类到近15,000家公司,实际上任何新闻都可以是15000家公司中的任何一家。因此排除组合作为单独类别的制作! 第二个建议是在层次结构中安排主题,这些主题在这里也不适用,因为公司名称不会收敛到任何基本类别。

拥有15000个15000个主题的模型可以做到,但听起来也不太合理!

那么分类多主题新闻的正确方法应该是什么呢?

谢谢!

1 个答案:

答案 0 :(得分:0)

如果您遇到多重标记数据的问题,最好使用专门针对它的工具。目前mahout并不支持多标记(有一些方法可以做到,但它们就像解决方法一样)。以下是一些用于标记数据的工具

http://mulan.sourceforge.net/

http://meka.sourceforge.net/