系统收集许多未对齐的时间序列数据:
示例:
TextField
并且可能也会延迟或批量发送(即事件时间可能不等于接收时间,取决于来源)
原始数据将上采样到1分钟间隔,并通过前一个值的线性插值填充缺失值。然后像这样进行元素化转换:
系列2 =系列2 +系列3
系列1 =系列1 *系列2
因此系列1取决于它自身和系列2.系列2取决于它自身和系列3。
系列之间的转换关系可以形成有向无环图(DAG)。 如果用户请求更改,关系将在运行时更改。
目前,当用户检索时间序列数据时,所有计算都会立即使用Python Pandas完成。但是,当数据量增加或用户选择较宽的时间范围时,性能会变差。
是否有任何方法/工具可以实现此目的,例如流或批处理?
答案 0 :(得分:0)
尝试使用RedBlackPy!它的创建是为了方便地处理时间序列,包括无约束插值。另外,您可以阅读TowardsDataScience上的文章。类RedBlackPy.Series包含您要寻找的所有功能。它支持对Series对象的键的排序并集(带有自动插值)的算术方法。
在处理时间序列等动态有序数据时,RedBlackPy优于熊猫。