Question

我正在尝试使用apache spark进行基本的Twitter情绪分析。

下面的页面解释了apache spark中使用的Naive Bayes函数，它可能是上述问题的候选者。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html

当你查看java示例时，培训和测试集以

给出

JavaRDD<LabeledPoint> training = ... // training set
JavaRDD<LabeledPoint> test = ... // test set

我不知道他们是什么数据类型，但我可以理解他们是一些非英语输入。

我有推文列表说。

“我爱我的国家。”
“办公室好日子。”
“Google Chrome糟透了！”

如何使用朴素贝叶斯函数处理文本？

对此的任何见解都会有所帮助。

Answer 1

LabeledPoint的格式为(double, Vectors(double[]))，其中第一个参数为label，第二个是要素向量（仅限非负实数值）。但对于你的情况，它不匹配。这意味着您必须找到将数据转换为实际值的方法。 TFIDF似乎是一种方式。您可能有兴趣阅读this示例以便更好地理解。

使用朴素贝叶斯在apache火花中的Twitter情绪分析

1 个答案: