Question

我正在使用play，scala和mongodb（salat）。

我有以下数据库结构 -

[{
"id":mongoId,
"name":"abc",
"utilization":20,
"timestamp":1416668402352
},
{
"id":mongoId,
"name":"abc",
"utilization":30,
"timestamp":1415684102290
},
{
"id":mongoId,
"name":"abc",
"utilization":90,
"timestamp":1415684402210
},
{
"id":mongoId,
"name":"abc",
"utilization":40,
"timestamp":1415684702188
},
{
"id":mongoId,
"name":"abc",
"utilization":35,
"timestamp":1415684702780
}]

通过使用上述数据，我想计算当前时间戳的利用率（通过应用统计算法）。

为了计算它，我使用的是火花。我已将以下依赖项添加到build.sbt的play.sbt。

我有以下问题。

1）如何计算当前利用率？（使用火花的MLlib）

2）是否可以使用spark ??

查询mongo集合以获取某些字段

Answer 1

有一个名为 Deep-Spark 的项目，它负责将spark与mongodb（以及其他数据存储，如cassandra，aerospike等）集成。

https://github.com/Stratio/deep-spark

您可以在此处查看如何使用它：

https://github.com/Stratio/deep-spark/blob/master/deep-examples/src/main/java/com/stratio/deep/examples/java/ReadingCellFromMongoDB.java

这是开始使用mongodb和spark的一种非常简单的方法。

很抱歉，我无法帮助您使用MLlib，但确定有人会添加一些有用的东西。

免责声明：我目前正在研究Stratio。

如何使用spark和mongo来计算预测？

1 个答案: