我有N个数组,每个数组的结构如下
Array 1: [['2014-01-01', '2014-01-03' ...], [1.1, 0.5, ...]]
Array 2: [['2014-01-01', '2014-01-02' ...], [1.4, 0.9, ...]]
Array 3: [['2014-01-02', '2014-01-04' ...], [0.8, 1.5, ...]]
我希望获得某种类型的数据框,如下所示
date 1-data 2-data
2014-01-01 1.1 1.4
2014-01-02 0 0.9
2014-01-03 0.5 0
2014-01-04 0 0
从示例中可以看出,问题是每个数组都排除了一些日期(即所有数组的日期都不相同)。我正在努力寻找一种快速,pythonic的方法将我的所有数组合并到一个数据帧中,并用零填充缺失的数据。
答案 0 :(得分:2)
这应该使用merge
函数和outer
方法
>>> import pandas as pd
>>> import numpy as np
>>> d1 = pd.DataFrame(np.array([['2014-01-01', '2014-01-03'], [1.1, 0.5]])).T
>>> d2 = pd.DataFrame(np.array([['2014-01-01', '2014-01-02'], [1.4, 0.9]])).T
>>> d3 = pd.DataFrame(np.array([['2014-01-02', '2014-01-04'], [0.8, 1.5]])).T
>>> d1.columns = d2.columns = d3.columns = ['t','v']
>>> pd.DataFrame(np.array(d1.merge(d2, on='t', how='outer').
... merge(d3, on='t', how='outer').
... sort('t')),
... columns=['date','1-data','2-data','3-data'])
...
date 1-data 2-data 3-data
0 2014-01-01 1.1 1.4 NaN
1 2014-01-02 NaN 0.9 0.8
2 2014-01-03 0.5 NaN NaN
3 2014-01-04 NaN NaN 1.5
[4 rows x 4 columns]