应用错误收集

我只是在研究Apache Spark，我不确定这是否可行或是否是正确的工具..

我的情况：

我有N个来源（想想和工厂）
每个源每分钟生成一个条目（所以我的密钥应该是[source_ID，timestamp +）
在每个条目中，我都有一个读取某些传感器值的哈希表（例如[T1 = 100，T2 = 120，...）

现在我需要做的是＆＃34; 最后10分钟＆＃34; T1（对于特定的source_ID）并与＆＃34; 最后10分钟的平均值进行比较＆＃34; 3天前（例如 timestamp_now = 2016-01-26T22：04：00 timestamp_3daysago = 20160123T22：04：00）并保存两者之间的差异需要使用＆＃34;行＆＃34;

我再说一遍，我不知道Spark是否是正确的工具。

目前我已经在python + PostgreSQL中实现了这一点，但回顾每一行的开销是杀死数据库

谢谢！

将值与Apache Spark中的先前数据进行比较

0 个答案: