我正在尝试使用apache spark进行基本的Twitter情绪分析。
下面的页面解释了apache spark中使用的Naive Bayes函数,它可能是上述问题的候选者。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html
当你查看java示例时, 培训和测试集以
给出JavaRDD<LabeledPoint> training = ... // training set
JavaRDD<LabeledPoint> test = ... // test set
我不知道他们是什么数据类型,但我可以理解他们是一些非英语输入。
我有推文列表说。
“我爱我的国家。”
“办公室好日子。”
“Google Chrome糟透了!”
如何使用朴素贝叶斯函数处理文本?
对此的任何见解都会有所帮助。
答案 0 :(得分:1)
LabeledPoint
的格式为(double, Vectors(double[]))
,其中第一个参数为label,第二个是要素向量(仅限非负实数值)。但对于你的情况,它不匹配。这意味着您必须找到将数据转换为实际值的方法。 TFIDF似乎是一种方式。您可能有兴趣阅读this示例以便更好地理解。