如何使用spark和mongo来计算预测?

时间:2014-12-11 08:25:25

标签: mongodb scala apache-spark

我正在使用play,scala和mongodb(salat)。

我有以下数据库结构 -

[{
"id":mongoId,
"name":"abc",
"utilization":20,
"timestamp":1416668402352
},
{
"id":mongoId,
"name":"abc",
"utilization":30,
"timestamp":1415684102290
},
{
"id":mongoId,
"name":"abc",
"utilization":90,
"timestamp":1415684402210
},
{
"id":mongoId,
"name":"abc",
"utilization":40,
"timestamp":1415684702188
},
{
"id":mongoId,
"name":"abc",
"utilization":35,
"timestamp":1415684702780
}]

通过使用上述数据,我想计算当前时间戳的利用率(通过应用统计算法)。

为了计算它,我使用的是火花。我已将以下依赖项添加到build.sbt的play.sbt。

我有以下问题。

1)如何计算当前利用率? (使用火花的MLlib)

2)是否可以使用spark ??

查询mongo集合以获取某些字段

1 个答案:

答案 0 :(得分:9)

有一个名为 Deep-Spark 的项目,它负责将spark与mongodb(以及其他数据存储,如cassandra,aerospike等)集成。

https://github.com/Stratio/deep-spark

您可以在此处查看如何使用它:

https://github.com/Stratio/deep-spark/blob/master/deep-examples/src/main/java/com/stratio/deep/examples/java/ReadingCellFromMongoDB.java

这是开始使用mongodb和spark的一种非常简单的方法。

很抱歉,我无法帮助您使用MLlib,但确定有人会添加一些有用的东西。

免责声明:我目前正在研究Stratio。