Mahout - 如何格式化Naive Bayes分类的输入

时间:2013-04-26 11:59:40

标签: input mahout

我想在Mahout中运行Naive Bayes分类器来解决分类问题 我到处搜索了如何格式化我的输入,以及如何指定mahout的输入,但没有找到任何有用的信息。

唯一可以远程使用的页面是
What are the steps needed to use Mahout Native Bayes Classifier Algorithm?

但是,即使在那里,答案的作者似乎也使用了一个名为 tt 的自定义脚本来解析输入。

如果有人知道如何为Mahout算法提供输入,请帮助..

1 个答案:

答案 0 :(得分:1)

我找到了以下网站:http://chimpler.wordpress.com/2013/03/13/using-the-mahout-naive-bayes-classifier-to-automatically-classify-twitter-messages/

显然,Mahout本身也在格式化方面提供了一些帮助。有一个选项可以传入mahout二进制文件,称为seq2encoded,seq2sparse,seqdirectory等。我不知道有关它们的使用的许多细节。此网站有更多:https://cwiki.apache.org/confluence/display/MAHOUT/Quick+tour+of+text+analysis+using+the+Mahout+command+line

我认为这不会让你一路走来,但希望它会有所帮助。

EDIT1:https://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors

EDIT2:http://www.datastax.com/dev/blog/apache-mahout-in-datastax-enterprise-building-a-classification-system