从两个不匹配的时间序列构造一个Dataframe

时间:2016-07-25 09:03:10

标签: python pandas matplotlib

The raw csv data The reference data我想匹配来自两个独立的DateTimeIndexed数据帧(raw和ref)的两个不匹配的时间序列,并将它们组合成一个完整的数据帧,其中全时序列作为index (因此一些NaN将作为df值出现)

如何创建一个具有完整DateTimeIndex(没有缺失值)的数据框,这些数据框将“容纳”这两个时间序列,每个时间序列都缺少一些值? enter image description here

下面是我尝试的:提取两个dfs的列(这里是raw2和ref2),索引它们,并将它们放在一个新的数据帧中。这是正确的方法吗?如果它(我怀疑它是)为什么我的最终结果有那么多NaN-我做错了什么?

raw2 = raw2.reset_index().drop_duplicates(subset='index', keep='last').set_index('index')
    ref2 = ref2.reset_index().drop_duplicates(subset='index', keep='last').set_index('index')

rawdates = pd.to_datetime(raw2.index)
refdates = pd.to_datetime(ref2.index)


WE_COA4_S1 = raw2['AS_box2_COA4_132800061_WE']
AE_COA4_S1 = raw2['AS_box2_COA4_132800061_AE']
WE_COA4_S1.index = rawdates
AE_COA4_S1.index = rawdates

TEMP = ref2['UCAM_TEMP (degrees)']
TEMP.index = refdates

rng = pd.date_range('17/12/2015', freq='min', periods=1440*64, format = '%y-%d-%m')
   d = {'WorkingElectrode_COA4S1':WE_COA4_S1, 'AuxiliaryElectrode_COA4S1':AE_COA4_S1,
     'Temperature':TEMP}
df = pd.DataFrame(data=d, index = rng)

这个df中有太多的nans。为什么不接受系列中的值?

0 个答案:

没有答案