我跟随Hadoop MapReduce Cookbook创建了20news-data set的Mahout朴素贝叶斯分类模型。我执行的重要且相关的命令(在我现在使用Mahout 0.13进行了一些更改之后,这本书有些陈旧)以获取最终的测试结果是(按顺序):
1。-hadoop fs -put 20_newsgroups / * 20news-all
2。。mahout seq目录-i 20news-all -o 20news-seq
3。。mahout seq2sparse -i 20news-seq -o 20news-vector
4。。mahout split -i 20news-vector / tfidf-vectors -tr 20news-train-vectors -te 20news-test-vectors -rp 40 -ow -seq -xm顺序
5。。mahout trainnb -i 20news-train-vectors -o model -li labelindex
6。。mahout testnb -i 20news-train-vectors -m模型-l labelindex -o 20个新闻测试
在此之后,我得到了结果:
一切顺利。
我的问题是我是否可以对一些文本字符串进行分类,例如,“中东局势继续在... xyz .....之类的东西中波动”或包含该文本的文件上面的字符串使用mahout命令并基于我在步骤5中创建的模型。
注意:我希望输出成为它被归类为 sci.electronics。
的主题。