我正在使用play,scala和mongodb(salat)。
我有以下数据库结构 -
[{
"id":mongoId,
"name":"abc",
"utilization":20,
"timestamp":1416668402352
},
{
"id":mongoId,
"name":"abc",
"utilization":30,
"timestamp":1415684102290
},
{
"id":mongoId,
"name":"abc",
"utilization":90,
"timestamp":1415684402210
},
{
"id":mongoId,
"name":"abc",
"utilization":40,
"timestamp":1415684702188
},
{
"id":mongoId,
"name":"abc",
"utilization":35,
"timestamp":1415684702780
}]
通过使用上述数据,我想计算当前时间戳的利用率(通过应用统计算法)。
为了计算它,我使用的是火花。我已将以下依赖项添加到build.sbt的play.sbt。
我有以下问题。
1)如何计算当前利用率? (使用火花的MLlib)
2)是否可以使用spark ??
查询mongo集合以获取某些字段答案 0 :(得分:9)
有一个名为 Deep-Spark 的项目,它负责将spark与mongodb(以及其他数据存储,如cassandra,aerospike等)集成。
https://github.com/Stratio/deep-spark
您可以在此处查看如何使用它:
这是开始使用mongodb和spark的一种非常简单的方法。
很抱歉,我无法帮助您使用MLlib,但确定有人会添加一些有用的东西。
免责声明:我目前正在研究Stratio。