使用Apache Mahout对数据进行分类

时间:2010-11-09 19:29:26

标签: apache machine-learning hadoop mahout

我正在尝试解决一个简单的分类问题。

问题:
    我有一组文字,我必须根据内容对它们进行分类。

使用Mahout的解决方案:
    我知道我必须将输入转换为序列文件以生成模型。是的,我能够做到这一点。现在,我如何对测试数据进行分类? 20News示例仅测试正确性。但是,我想做实际的分类     我不确定是否需要编写代码或使用一些现有的类来对测试集进行分类。?

2 个答案:

答案 0 :(得分:3)

我遇到了类似的问题。

运行

bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs

将根据模型对文本文件进行分类。

这可能会让你更进一步,但我猜,像我一样,你想要对整个文档进行分类,并希望输出有用的格式。

可能需要编写一些java来执行此操作。有人在https://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.java

看起来会像我想要的那样做一个例子

答案 1 :(得分:3)

我讨厌插入我自己的作品,但我们将整个部分放入Mahout in Action中进行分类。理论,代码示例,案例研究实践,甚至整个服务器场实现。

您可以在http://www.manning.com/owen/

获取预发布版本