如何转换到达不同区间并相互依赖的多个未对齐时间序列

时间:2018-05-13 14:06:22

标签: time-series batch-processing stream-processing

系统收集许多未对齐的时间序列数据:

示例:

TextField

并且可能也会延迟或批量发送(即事件时间可能不等于接收时间,取决于来源)

原始数据将上采样到1分钟间隔,并通过前一个值的线性插值填充缺失值。然后像这样进行元素化转换:

系列2 =系列2 +系列3
系列1 =系列1 *系列2

因此系列1取决于它自身和系列2.系列2取决于它自身和系列3。

系列之间的转换关系可以形成有向无环图(DAG)。 如果用户请求更改,关系将在运行时更改。

目前,当用户检索时间序列数据时,所有计算都会立即使用Python Pandas完成。但是,当数据量增加或用户选择较宽的时间范围时,性能会变差。

是否有任何方法/工具可以实现此目的,例如流或批处理?

1 个答案:

答案 0 :(得分:0)

尝试使用RedBlackPy!它的创建是为了方便地处理时间序列,包括无约束插值。另外,您可以阅读TowardsDataScience上的文章。类RedBlackPy.Series包含您要寻找的所有功能。它支持对Series对象的键的排序并集(带有自动插值)的算术方法。 SeriesIterator

在处理时间序列等动态有序数据时,RedBlackPy优于熊猫。

enter image description here