将值与Apache Spark中的先前数据进行比较

时间:2016-01-26 21:10:33

标签: apache-spark

我只是在研究Apache Spark,我不确定这是否可行或是否是正确的工具..

我的情况:

  1. 我有N个来源(想想和工厂)
  2. 每个源每分钟生成一个条目(所以我的密钥应该是[source_ID,timestamp +)
  3. 在每个条目中,我都有一个读取某些传感器值的哈希表(例如[T1 = 100,T2 = 120,...)
  4. 现在我需要做的是" 最后10分钟" T1(对于特定的source_ID)并与" 最后10分钟的平均值进行比较" 3天前(例如 timestamp_now = 2016-01-26T22:04:00 timestamp_3daysago = 20160123T22:04:00)并保存两者之间的差异需要使用"行"

    保存的变量

    我再说一遍,我不知道Spark是否是正确的工具。

    目前我已经在python + PostgreSQL中实现了这一点,但回顾每一行的开销是杀死数据库

    谢谢!

0 个答案:

没有答案