我有一个格式class, unigram count, bigram count, sentiment
的数字数据集。我浏览了一些Apache Mahout文档,它完全是关于文本数据的。我知道我需要执行3个步骤来分类:转换为序列文件,Vectorize序列文件,传递它来训练朴素贝叶斯分类器。但我很难理解分类文本数据集与分类Mahout中的数值数据集之间的区别。在我的案例中,我需要做些什么?我将不胜感激任何帮助。
答案 0 :(得分:1)
您可能知道,mahout无法使用文本数据来训练模型。如果从数值数据集开始,分类将更加容易,因为mahout处理的向量是数值数据向量。
我在文本数据集上使用了mahout,我知道在这种情况下,我必须使用dictionnary将文本数据转换为数字数据。有些算法比其他算法更好地处理它(例如Naive Bayes强烈喜欢类似文本的数据)。
因此,在您的情况下,尝试使用其他分类器,如随机forrest或在线逻辑回归,以获得更有效的结果。根据我的经验,使用随机forrest,您可以定义您拥有的功能类型(在您的情况下,所有功能都是数字),因此分类可以很容易地完成。如果你想坚持朴素贝叶斯,我相信仍然可以对你的数值数据集进行分类,但我从未使用它,所以我无法提供更多的帮助。