使用哪种火花MLIB算法?

时间:2015-06-16 08:41:25

标签: machine-learning apache-spark

我是机器学习的新手,想了解使用什么算法(分类算法或协同关系算法?)来理解一个或多个属性之间的关系。

例如,考虑我有以下属性集,

Bill No, Bill Amount, Tip amount, Waiter Name

并想知道哪些属性有助于提示金额。

以下是数据样本集

Bill No, Bill Amount, Tip amount, Waiter detail
   1,         100,          10,        Sathish
   2,         200,          20,        Sathish
   3,         150,          10,        Rahul
   4,         200,          10,        Simon
   5,         100,          10,        Sathish

在这种情况下,我们知道提示金额将受到账单金额的99%影响。但我想知道我应该用什么来解决Spark MLib算法?如果是这样,我可以将类似的技术应用于长属性集。

2 个答案:

答案 0 :(得分:2)

您可以做的一件事是计算行之间的相关性。在mllib网站上查看关于summary statistics的教程。

更高级的方法是使用dimensionality reduction。这应该会发现更复杂的依赖关系。

答案 1 :(得分:1)

您可以计算不同行之间的相关性。请参阅 相关性 https://spark.apache.org/docs/latest/mllib-statistics.html#correlations)。例如,如果计算账单金额和提示金额之间的相关性,很可能您会得到接近1的相关值。