应用错误收集

如何在Apache Mahout中对数值数据进行分类？

时间：2014-09-15 00:21:55

标签： java hadoop machine-learning classification mahout

我有一个格式class, unigram count, bigram count, sentiment的数字数据集。我浏览了一些Apache Mahout文档，它完全是关于文本数据的。我知道我需要执行3个步骤来分类：转换为序列文件，Vectorize序列文件，传递它来训练朴素贝叶斯分类器。但我很难理解分类文本数据集与分类Mahout中的数值数据集之间的区别。在我的案例中，我需要做些什么？我将不胜感激任何帮助。

1 个答案:

答案 0 :(得分：1)

您可能知道，mahout无法使用文本数据来训练模型。如果从数值数据集开始，分类将更加容易，因为mahout处理的向量是数值数据向量。

我在文本数据集上使用了mahout，我知道在这种情况下，我必须使用dictionnary将文本数据转换为数字数据。有些算法比其他算法更好地处理它（例如Naive Bayes强烈喜欢类似文本的数据）。

因此，在您的情况下，尝试使用其他分类器，如随机forrest或在线逻辑回归，以获得更有效的结果。根据我的经验，使用随机forrest，您可以定义您拥有的功能类型（在您的情况下，所有功能都是数字），因此分类可以很容易地完成。如果你想坚持朴素贝叶斯，我相信仍然可以对你的数值数据集进行分类，但我从未使用它，所以我无法提供更多的帮助。