使用许多键从字典列表创建pandas时间序列

时间:2016-07-05 16:49:33

标签: python pandas

我有多个时间序列,是各种算法的输出。这些算法可以有各种参数,因此产生时间序列:

timestamp1=1;
value1=5;
timestamp2=2;
value2=8;
timestamp3=3;
value3=4;
timestamp4=4;
value4=12;

resultsOfAlgorithms=[
{
'algorithm':'minmax',
'param-a':'12',
'param-b':'200',
'result-of-algorithm':[[timestamp1,value1],[timestamp2,value2]]
},
{
'algorithm':'minmax',
'param-a':'12',
'param-b':'30',
'result-of-algorithm':[[timestamp1,value1],[timestamp3,value3]]
},
{
'algorithm':'minmax',
'param-a':'12',
'param-b':'30',
'result-of-algorithm':[[timestamp2,value2],[timestamp4,value4]]
},
{
'algorithm':'delta',
'param-a':'12',
'param-b':'50',
'result-of-algorithm':[[timestamp2,value2],[timestamp4,value4]]
}
]

我希望能够通过算法和参数过滤时间序列并绘制过滤的时间序列,以查看给定参数如何影响输出。为此,我需要知道给定参数的所有出现值,然后能够选择具有所需参数的时间序列。例如。我想用param -b == 30绘制minmax算法的所有结果。使用minmax算法和param-b == 30生成了2个结果。因此,我希望有一个包含2个时间序列的情节。

这可能与熊猫一起使用,还是这是熊猫功能?怎么可以实现呢?

编辑: 搜索更多的互联网我认为我正在寻找一种使用层次索引的方法。时间序列也应保持分离。每个结果都是一个单独的时间序列。它不应该与其他结果合并在一起。我需要通过使用的参数过滤算法的结果。过滤器的结果应该仍然是时间序列表。

编辑2: 有多个子问题:

  1. 查找每个参数的所有现有值(用户不知道所有值,因为系统可以自动生成参数)

  2. 用户选择一些值进行过滤 用户可以提供的一种方式是字典(但欢迎更多用户友好的想法):

    滤波器= { 'PARAM-B':[30,50], '算法': 'MINMAX' }

  3. 来自resultsOfAlgorithms [1:2](第2和第3个结果)的时间序列是作为过滤的结果给出的,因为这些结果是由minmax算法产生的,而param-b是30.因此在这种情况下

    [ [[timestamp1,值1],[timestamp3,值3]] [[timestamp1,值1],[timestamp3,值3] ]

  4. 过滤结果将返回多个时间序列,我想绘制和比较。

  5. 用户想尝试使用各种过滤器来查看它们如何影响结果

  6. 我在Jupyter笔记本中做了这一切。我想让用户尽可能少地尝试各种过滤器。

    不会共享结果中的时间戳。结果之间的时间戳不一定共享。例如。所有时间序列可能在下午1点到3点之间发生,并且具有完全相同的值,但时间戳和值的数量不相同。

1 个答案:

答案 0 :(得分:1)

所以这里有两个选项,一个是首先清理dict,然后将其轻松转换为数据帧,第二个是将其转换为数据帧,然后清理将在其中嵌套列表的列。对于第一个解决方案,您可以像这样重构dict:

import pandas as pd
from collections import defaultdict

data = defaultdict(list)
for roa in resultsOfAlgorithms:
    for i in range(len(roa['result-of-algorithm'])):
        data['algorithm'].append(roa['algorithm'])
        data['param-a'].append(roa['param-a'])
        data['param-b'].append(roa['param-b'])
        data['time'].append(roa['result-of-algorithm'][i][0])
        data['value'].append(roa['result-of-algorithm'][i][1])

df = pd.DataFrame(data)

In [31]: df
Out[31]:
  algorithm param-a param-b  time  value
0    minmax      12     200     1      5
1    minmax      12     200     2      8
2    minmax      12      30     1      5
3    minmax      12      30     3      4
4    minmax      12      30     2      8
5    minmax      12      30     4     12
6     delta      12      50     2      8
7     delta      12      50     4     12

从这里你可以用它进行任何你需要的分析,无论是绘图还是将时间列作为索引或分组和聚合,等等。您可以将此与此链接中的数据框首先进行比较:

Splitting a List inside a Pandas DataFrame

他们基本上做同样的事情,将一列列表拆分成多行。我认为修复字典会更容易,这取决于你的相当简单的例子对真实数据的代表性。

编辑:如果要将其转换为多索引,可以再添加一行:

df_mi = df.set_index(['algorithm', 'param-a', 'param-b'])

In [25]: df_mi
Out[25]:
                           time  value
algorithm param-a param-b
minmax    12      200         1      5
                  200         2      8
                  30          1      5
                  30          3      4
                  30          2      8
                  30          4     12
delta     12      50          2      8
                  50          4     12