如何处理任意时间序列数据的收集和分析(数据流挖掘)

时间:2016-11-16 10:13:12

标签: python pandas time-series analytics data-mining

在我们的黑客空间,我们有几个环境传感器和事件跟踪器(例如#连接设备,加热,条形码交易等),它们定期输出时间序列数据。我们当前平台的输出包括unix时间戳+值/事件。每个探测器轮询它们的间隔是不同的。

目标是在一个数据集中收集此数据

  1. 高效存储
  2. 在线分析(使用scikit)
  3. 流式可视化(使用散景)
  4. 以集成方式处理实数值和离散数值数据
  5. (最好使用Python,但这不是必需的。)
  6. 实现上述目标的实用方法是什么?是否存在提供此功能的现有库?

    当前(不完美)计划:

    • 整合timeseries对象并将它们集成到numpy数组或pandas timeseries数据帧中。
    • 按最小可用时间间隔更新x轴,并为间隔较大的传感器设置缺少的数据点至NaN。
    • 以后可以插入/卷积NaN值。

    然而,这将导致数据集具有大部分NaN值,并且具有其自身的统计和可能的存储问题。另一种选择是预先确定中间间隔并存储丢失一些数据。

0 个答案:

没有答案