用spark-ts调整不均匀间隔的时间序列

时间:2016-05-31 05:17:26

标签: apache-spark time-series

我们计划将传感器时间序列数据存储在cassandra中,并使用spark/spark-ts在其上应用机器学习算法。

与文档不同,我们的时间序列数据不规则 - unevenly spaced time series - 因为传感器发送基于事件的数据。

但大多数算法和模型都需要定期的时间序列。

  • spark-ts是否提供将不规则时间序列转换为常规时间序列的任何函数(使用插值或时间加权平均值等)?

  • 如果没有,那么解决这个问题的建议方法是什么?

1 个答案:

答案 0 :(得分:0)

spark-ts不提供将不规则时间序列转换为常规时间序列的任何函数。

如何处理不规则间隔的时间序列取决于您通过分析尝试实现的目标。时间序列的用例包括预测/预测,异常检测或尝试理解/分析过去的行为。

如果您希望使用spark-ts中可用的算法(而不是通过为事件流设计的其他统计过程对数据进行建模),可以选择将时间轴划分为大小相等的箱,然后计算每个箱子中的数据摘要(例如,总数,平均值等)。随着您的垃圾箱越来越精细,由于量化时间维度而丢失的信息被最小化,但您的数据可能更难建模(因此垃圾箱大小控制权衡)。因此,分箱数据会形成均匀间隔的时间序列,您可以使用典型的时间序列技术进行分析。