熊猫:合并两个具有不同时间索引的数据帧

时间:2018-03-13 17:06:09

标签: python python-3.x pandas sklearn-pandas

我有一个大的日期集,其中包含作为我的标签的分类数据(非统一时间戳)。我有另一个数据集,它是测量的集合。 当我想组装这两个数据集时,它们有两个不同的时间戳(聚合与非聚合)。

分类数据框(df_Label)

count   1185
unique  10
top         ABCD
freq    1165

聚合数据集(MeasureAgg), 为了将标签数据框与测量数据帧组合在一起。 我用df_Label=df_Label.reindex(MeasureAgg.index, method='nearest') 问题是这个重建索引的结果将消除我的许多标签,所以df.describe()将是:

count   4
unique  2
top     ABCD
freq    3

我查看了两行标签被nan取代的地方,但无法找到这些来自何处的迹象。

我怀疑这个问题可能是由于两个时间戳之间的标签聚集而消除了许多时间戳,但事实并非如此。

我为伪装数据集尝试了这个,它按预期工作但不确定为什么我的情况不起作用df_Label=df_Label.reindex(MeasureAgg.index, method='nearest')

我对我的问题含糊不清的道歉,我无法用伪造的数据集复制这个问题(对于伪造的数据集,它工作得很好)。如果有人可以用其他方式/修改方式指导我,我可以组装这两个数据帧,我将不胜感激。

提前致谢

更新: 只有时间戳,因为它主要是缺少数据

df_Label.head(5)

Time
2000-01-01 00:00:10.870    NaN
2000-01-01 00:00:10.940    NaN
2000-01-01 00:00:11.160    NaN
2000-01-01 00:00:11.640    NaN
2000-01-01 00:00:12.460    NaN
Name: SUM, dtype: object

df_Label.describe()

count             1185
unique              10
top       9_33_2_0_0_0
freq              1165
Name: SUM, dtype: object

MeasureAgg.head(5)

Time    mean    std skew    kurt
2000-01-01 00:00:00 0.0 0.0     
2010-01-01 00:00:00 0.0         
2015-01-01 00:00:00             
2015-12-01 00:00:00             
2015-12-01 12:40:00 0.0

MeasureAgg.describe()

    mean    std skew    kurt
count   407.0   383.0   382.0   382.0
mean    487.3552791234544 35.67631749396375 -0.7545081710390299 2.52171909979003
std 158.53524231679074 43.66050329988979    1.3831195437535115  6.72280956322486
min     0.0      0.0      -7.526780108501018  -1.3377292623812096
25% 474.33696969696973 11.5126181533734 -1.1790982769904146 -0.4005545816076801
50% 489.03428571428566 13.49696931937243 -0.2372819584684056 -0.017202890096714274
75% 532.3371929824561 51.40084557371704 0.12755009341999793 1.421205718986767
max 699.295652173913 307.8822231525122 1.2280152015331378   66.9243304128838

0 个答案:

没有答案