我们计划将传感器时间序列数据存储在cassandra
中,并使用spark/spark-ts
在其上应用机器学习算法。
与文档不同,我们的时间序列数据不规则 - unevenly spaced time series - 因为传感器发送基于事件的数据。
但大多数算法和模型都需要定期的时间序列。
spark-ts
是否提供将不规则时间序列转换为常规时间序列的任何函数(使用插值或时间加权平均值等)?
如果没有,那么解决这个问题的建议方法是什么?
答案 0 :(得分:0)
spark-ts不提供将不规则时间序列转换为常规时间序列的任何函数。
如何处理不规则间隔的时间序列取决于您通过分析尝试实现的目标。时间序列的用例包括预测/预测,异常检测或尝试理解/分析过去的行为。
如果您希望使用spark-ts中可用的算法(而不是通过为事件流设计的其他统计过程对数据进行建模),可以选择将时间轴划分为大小相等的箱,然后计算每个箱子中的数据摘要(例如,总数,平均值等)。随着您的垃圾箱越来越精细,由于量化时间维度而丢失的信息被最小化,但您的数据可能更难建模(因此垃圾箱大小控制权衡)。因此,分箱数据会形成均匀间隔的时间序列,您可以使用典型的时间序列技术进行分析。