我只是在研究Apache Spark,我不确定这是否可行或是否是正确的工具..
我的情况:
现在我需要做的是" 最后10分钟" T1(对于特定的source_ID)并与" 最后10分钟的平均值进行比较" 3天前(例如 timestamp_now = 2016-01-26T22:04:00 timestamp_3daysago = 20160123T22:04:00)并保存两者之间的差异需要使用"行"
保存的变量我再说一遍,我不知道Spark是否是正确的工具。
目前我已经在python + PostgreSQL中实现了这一点,但回顾每一行的开销是杀死数据库
谢谢!