使用时间序列数据从其他DataFrame列类别创建无限DataFrame

时间:2019-06-01 02:00:24

标签: python pandas numpy dataframe dictionary

我在时间序列中有三列。

时间序列是每小时和索引值。

我有多个每小时要衡量的类别。

我有任意级别的列表:这些通常是奇数名称,我一次可能拉到40到40000之间的任意位置。

我也有他们不同的值:得分为0-100。

所以:

我要使每个级别都有自己的数据框:

(完整的DataFrame):

df = 

              date    levels    score
2019-01-01 00:00:00    1005  99.438851
2019-01-01 01:00:00    1005  92.081975
2019-01-01 02:00:00    1005  93.032991
2019-01-01 03:00:00    1005   1.991615
2019-01-01 04:00:00    1005  12.723531
2019-01-01 05:00:00    1005  74.443313

(我要生成的数百个单个数据框之一,但不在DICT中)

df_is_1005 = 

              date      score
2019-01-01 00:00:00  99.438851
2019-01-01 01:00:00  92.081975
2019-01-01 02:00:00  93.032991
2019-01-01 03:00:00   1.991615
2019-01-01 04:00:00  12.723531
2019-01-01 05:00:00  74.443313

....但仅适用于所有级别

然后 我有点问题!

我已经做了很多挖掘工作,并尝试对数据帧进行排序。如何提取其中的每一个?

此外,如何分别命名为:df_of_ {levels}?

这是我将为玩具模型创建的时间序列数据。 (但每个级别都应有多个日期时间,与此处不同)


import pandas as pd
from datetime import datetime
import numpy as np
import pandas as pd

date_rng = pd.date_range(start='1/1/2019', end='3/30/2019', freq='H')

df = pd.DataFrame(date_rng, columns=['date'])

df['level'] = np.random.randint(1000,1033,size=(len(date_rng)))

df['score'] = np.random.uniform(0,100,size=(len(date_rng)))

请记住,我可能要处理的级别可能是数百个,它们被称为奇怪的东西。

我将把每个时间戳记作为单独的行。

我期望的目标是具有每个可能的级别,以动态创建数据帧。在这里,可能不仅仅是少数级别。

现在:我知道我可以创建一个数据帧字典。

但是如何提取具有单个编号的每个数据帧?

例如,我想要

df = 

              date    levels    score
2019-01-01 00:00:00    1005  99.438851
2019-01-01 01:00:00    1005  92.081975
2019-01-01 02:00:00    1005  93.032991
2019-01-01 03:00:00    1005   1.991615
2019-01-01 04:00:00    1005  12.723531
2019-01-01 05:00:00    1005  74.443313
2019-01-01 06:00:00    1005  12.154499
2019-01-01 07:00:00    1005  96.439228
2019-01-01 08:00:00    1005  64.283731
2019-01-01 09:00:00    1005  83.165093
2019-01-01 10:00:00    1005  75.740610
2019-01-01 11:00:00    1005  25.721404
2019-01-01 12:00:00    1005  37.493829
2019-01-01 13:00:00    1005  51.783549
2019-01-01 14:00:00    1005   7.223582
2019-01-01 15:00:00    1005   0.932651
2019-01-01 16:00:00    1005  95.916686
2019-01-01 17:00:00    1005  11.579450

和相同的df,很久以后...:

               date   levels      score
2019-01-01 00:00:00    1027  99.438851
2019-01-01 01:00:00    1027  92.081975
2019-01-01 02:00:00    1027  93.032991
2019-01-01 03:00:00    1027   1.991615
2019-01-01 04:00:00    1027  12.723531
2019-01-01 05:00:00    1027  74.443313
2019-01-01 06:00:00    1027  12.154499
2019-01-01 07:00:00    1027  96.439228
2019-01-01 08:00:00    1027  64.283731
2019-01-01 09:00:00    1027  83.165093
2019-01-01 10:00:00    1027  75.740610
2019-01-01 11:00:00    1027  25.721404
2019-01-01 12:00:00    1027  37.493829
2019-01-01 13:00:00    1027  51.783549
2019-01-01 14:00:00    1027   7.223582
2019-01-01 15:00:00    1027   0.932651
2019-01-01 16:00:00    1027  95.916686
2019-01-01 17:00:00    1027  11.579450
2019-01-01 18:00:00    1027  91.226938
2019-01-01 19:00:00    1027  31.564530
2019-01-01 20:00:00    1027  39.511358
2019-01-01 21:00:00    1027  59.787468
2019-01-01 22:00:00    1027   4.666549
2019-01-01 23:00:00    1027  92.197337

...等...

每个级别,单独调用(可能有数百个具有随机值):

要转换为

df_ {level_value_genic} =


        date           score
2019-01-01 00:00:00   8.040233
2019-01-01 01:00:00  55.736688
2019-01-01 02:00:00  37.910143
2019-01-01 03:00:00  22.907763
2019-01-01 04:00:00   4.586205
2019-01-01 05:00:00  88.090652
2019-01-01 06:00:00  50.474533
2019-01-01 07:00:00  92.890208
2019-01-01 08:00:00  70.949978
2019-01-01 09:00:00  23.191488
2019-01-01 10:00:00  60.506870
2019-01-01 11:00:00  25.689149
2019-01-01 12:00:00  49.234296
2019-01-01 13:00:00  65.369771
2019-01-01 14:00:00  55.550065
2019-01-01 15:00:00  35.112297
2019-01-01 16:00:00  45.989587
2019-01-01 17:00:00  76.829787
2019-01-01 18:00:00   5.982378
2019-01-01 19:00:00  83.603115
2019-01-01 20:00:00   5.995648
2019-01-01 21:00:00  95.658097
2019-01-01 22:00:00  21.877945
2019-01-01 23:00:00  30.428798
2019-01-02 00:00:00  72.450284
2019-01-02 01:00:00  91.947018
2019-01-02 02:00:00  66.741502
2019-01-02 03:00:00  77.535416
2019-01-02 04:00:00  29.624868
2019-01-02 05:00:00  89.652003

因此,我可以列出动态创建的这些数据框。

在这里,我想将它们添加到字典中,原因是,我想在每个单独的DataFrame上训练一个时间序列模型,这样我可以为他们每个人都有自己的培训和成果。

如果可能的话,我可以分别从一个字典内部训练多个DataFrame吗?

如果我只是做一个数据透视表或groupby,我将有一个很大的数据框,我将不得不单独调出列来按时间序列进行训练。所以我宁愿不这样做。

所以,我该如何动态创建:

值未知的级别中新命名的DataFrames

每个命名为:

df_ {level_name}:

DateTime列:Score_Column:

一些约会...得分0-100

然后将在其自己的DataFrame中删除“ level_name”列,以便我可以根据需要拥有尽可能多的数据框,每个数据框均以编程方式进行唯一命名,因此我可以将其中的每个数据框插入到新模型中还是什么?

1 个答案:

答案 0 :(得分:0)

如果我正确理解了您的问题,那么MultiIndex应该会完全按照您的意愿进行操作。

要在数据框上执行此操作,

df.reset_index(inplace=True)
df.set_index(['levels', 'date'], inplace=True)

# in the case of your example above, this will produce:
df = 

levels date                     score
1005   2019-01-01 00:00:00      99.438851
       2019-01-01 01:00:00      92.081975
       2019-01-01 02:00:00      93.032991
       2019-01-01 03:00:00      1.991615
       2019-01-01 04:00:00      12.723531
       2019-01-01 05:00:00      74.443313
       2019-01-01 06:00:00      12.154499
       2019-01-01 07:00:00      96.439228
       2019-01-01 08:00:00      64.283731
       2019-01-01 09:00:00      83.165093
       2019-01-01 10:00:00      75.740610
       2019-01-01 11:00:00      25.721404
       2019-01-01 12:00:00      37.493829
       2019-01-01 13:00:00      51.783549
       2019-01-01 14:00:00      7.223582
       2019-01-01 15:00:00      0.932651
       2019-01-01 16:00:00      95.916686
       2019-01-01 17:00:00      11.579450
1027   2019-01-01 00:00:00      99.438851
       2019-01-01 01:00:00      92.081975
       2019-01-01 02:00:00      93.032991
       2019-01-01 03:00:00      1.991615
       2019-01-01 04:00:00      12.723531
       2019-01-01 05:00:00      74.443313
       2019-01-01 06:00:00      12.154499
       2019-01-01 07:00:00      96.439228
       2019-01-01 08:00:00      64.283731
       2019-01-01 09:00:00      83.165093
       2019-01-01 10:00:00      75.740610
       2019-01-01 11:00:00      25.721404
       2019-01-01 12:00:00      37.493829
       2019-01-01 13:00:00      51.783549
       2019-01-01 14:00:00      7.223582
       2019-01-01 15:00:00      0.932651
       2019-01-01 16:00:00      95.916686
       2019-01-01 17:00:00      11.579450
       2019-01-01 18:00:00      91.226938
       2019-01-01 19:00:00      31.564530
       2019-01-01 20:00:00      39.511358
       2019-01-01 21:00:00      59.787468
       2019-01-01 22:00:00      4.666549
       2019-01-01 23:00:00      92.197337
#... etc

然后您可以使用以下索引访问数据的每个级别:

df.loc[1005, :]

  > 
date                     score
2019-01-01 00:00:00      99.438851
2019-01-01 01:00:00      92.081975
2019-01-01 02:00:00      93.032991
2019-01-01 03:00:00      1.991615
2019-01-01 04:00:00      12.723531
2019-01-01 05:00:00      74.443313
2019-01-01 06:00:00      12.154499
2019-01-01 07:00:00      96.439228
2019-01-01 08:00:00      64.283731
2019-01-01 09:00:00      83.165093
2019-01-01 10:00:00      75.740610
2019-01-01 11:00:00      25.721404
2019-01-01 12:00:00      37.493829
2019-01-01 13:00:00      51.783549
2019-01-01 14:00:00      7.223582
2019-01-01 15:00:00      0.932651
2019-01-01 16:00:00      95.916686
2019-01-01 17:00:00      11.579450

您还可以使用以下方法遍历数据的所有“层”:

for level, data in df.groupby(level=0):
   # do something to 'level'

并且,如果需要,获取数据中包含的所有“级别”的列表:

df.index.levels[0]

  > [1005, 1027, ...]

与创建大量单独命名的数据框相比,这可能会更灵活,并且更接近于熊猫的使用。