建立幼稚的贝叶斯模型后,如何在Mahout中对某些文本进行分类?

时间:2019-04-24 15:26:00

标签: hadoop mahout

我跟随Hadoop MapReduce Cookbook创建了20news-data set的Mahout朴素贝叶斯分类模型。我执行的重要且相关的命令(在我现在使用Mahout 0.13进行了一些更改之后,这本书有些陈旧)以获取最终的测试结果是(按顺序):

1。-hadoop fs -put 20_newsgroups / * 20news-all

2。。mahout seq目录-i 20news-all -o 20news-seq

3。。mahout seq2sparse -i 20news-seq -o 20news-vector

4。。mahout split -i 20news-vector / tfidf-vectors -tr 20news-train-vectors     -te 20news-test-vectors -rp 40 -ow -seq -xm顺序

5。。mahout trainnb -i 20news-train-vectors -o model -li labelindex

6。。mahout testnb -i 20news-train-vectors -m模型-l labelindex -o     20个新闻测试

在此之后,我得到了结果:

Mahout Test Output(testnb) result

一切顺利。

我的问题是我是否可以对一些文本字符串进行分类,例如,“中东局势继续在... xyz .....之类的东西中波动”或包含该文本的文件上面的字符串使用mahout命令并基于我在步骤5中创建的模型。

注意:我希望输出成为它被归类为 sci.electronics。

的主题。

0 个答案:

没有答案