使用朴素贝叶斯在apache火花中的Twitter情绪分析

时间:2014-09-18 09:07:03

标签: java twitter apache-spark machine-learning apache-spark-mllib

我正在尝试使用apache spark进行基本的Twitter情绪分析。

下面的页面解释了apache spark中使用的Naive Bayes函数,它可能是上述问题的候选者。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html

当你查看java示例时, 培训和测试集以

给出
JavaRDD<LabeledPoint> training = ... // training set
JavaRDD<LabeledPoint> test = ... // test set

我不知道他们是什么数据类型,但我可以理解他们是一些非英语输入。

我有推文列表说。

“我爱我的国家。”
“办公室好日子。”
“Google Chrome糟透了!”

如何使用朴素贝叶斯函数处理文本?

对此的任何见解都会有所帮助。

1 个答案:

答案 0 :(得分:1)

LabeledPoint的格式为(double, Vectors(double[])),其中第一个参数为label,第二个是要素向量(仅限非负实数值)。但对于你的情况,它不匹配。这意味着您必须找到将数据转换为实际值的方法。 TFIDF似乎是一种方式。您可能有兴趣阅读this示例以便更好地理解。