用Java分类记录

时间:2012-06-07 08:33:56

标签: java

我有一本书的清单,每本书属于一个类别。

  • 飞机 - 航空
  • 画一幅画 - 艺术
  • 1001食谱 - 烹饪

我有足够多的数据样本集。我需要使用一些算法对我的新书进行分类。我知道它永远不会100%准确,但一个好的猜测对我有好处。

我应该用什么来实现这样的事情呢?我应该使用Classifier4J,它是Vector Classifier吗?

我应该像Weka一样看待其他工具吗?如果有人可以指点我一些文章/例子让我开始,那就太好了。

由于

2 个答案:

答案 0 :(得分:1)

https://www.coursera.org/course/ml有一门叫做机器学习的课程。如果您将问题视为分类,则应训练N One-vs-All分类器,其中N是您的班级数(=类别)。为了训练分类器使用自然语言处理类https://www.coursera.org/course/nlp中描述的算法,通常它将与现有类http://nlp.stanford.edu/IR-book/html/htmledition/text-classification-and-naive-bayes-1.html相似。所有这些都可以在Apache Mahout中使用https://cwiki.apache.org/confluence/display/MAHOUT/Bayesian完成。

答案 1 :(得分:1)

Lingpipe似乎是一个很好的解决方案,似乎运作良好。 Lingpipe中包含的演示是一个很好的开始:

http://alias-i.com/lingpipe/demos/tutorial/classify/read-me.html