我有一个大的日期集,其中包含作为我的标签的分类数据(非统一时间戳)。我有另一个数据集,它是测量的集合。 当我想组装这两个数据集时,它们有两个不同的时间戳(聚合与非聚合)。
分类数据框(df_Label)
count 1185
unique 10
top ABCD
freq 1165
聚合数据集(MeasureAgg),
为了将标签数据框与测量数据帧组合在一起。
我用df_Label=df_Label.reindex(MeasureAgg.index, method='nearest')
问题是这个重建索引的结果将消除我的许多标签,所以df.describe()将是:
count 4
unique 2
top ABCD
freq 3
我查看了两行标签被nan取代的地方,但无法找到这些来自何处的迹象。
我怀疑这个问题可能是由于两个时间戳之间的标签聚集而消除了许多时间戳,但事实并非如此。
我为伪装数据集尝试了这个,它按预期工作但不确定为什么我的情况不起作用df_Label=df_Label.reindex(MeasureAgg.index, method='nearest')
提前致谢
更新: 只有时间戳,因为它主要是缺少数据
df_Label.head(5)
Time
2000-01-01 00:00:10.870 NaN
2000-01-01 00:00:10.940 NaN
2000-01-01 00:00:11.160 NaN
2000-01-01 00:00:11.640 NaN
2000-01-01 00:00:12.460 NaN
Name: SUM, dtype: object
df_Label.describe()
count 1185
unique 10
top 9_33_2_0_0_0
freq 1165
Name: SUM, dtype: object
MeasureAgg.head(5)
Time mean std skew kurt
2000-01-01 00:00:00 0.0 0.0
2010-01-01 00:00:00 0.0
2015-01-01 00:00:00
2015-12-01 00:00:00
2015-12-01 12:40:00 0.0
MeasureAgg.describe()
mean std skew kurt
count 407.0 383.0 382.0 382.0
mean 487.3552791234544 35.67631749396375 -0.7545081710390299 2.52171909979003
std 158.53524231679074 43.66050329988979 1.3831195437535115 6.72280956322486
min 0.0 0.0 -7.526780108501018 -1.3377292623812096
25% 474.33696969696973 11.5126181533734 -1.1790982769904146 -0.4005545816076801
50% 489.03428571428566 13.49696931937243 -0.2372819584684056 -0.017202890096714274
75% 532.3371929824561 51.40084557371704 0.12755009341999793 1.421205718986767
max 699.295652173913 307.8822231525122 1.2280152015331378 66.9243304128838