我有两个数据框,如下所示:
dataOB = pd.DataFrame({'Time': \
[dt.datetime(2013,4,17,9,0,1), \
dt.datetime(2013,4,17,9,0,1), \
dt.datetime(2013,4,17,9,0,2), \
dt.datetime(2013,4,17,9,0,2), \
dt.datetime(2013,4,17,9,0,2), \
dt.datetime(2013,4,17,9,0,2), \
dt.datetime(2013,4,17,9,0,3), \
dt.datetime(2013,4,17,9,0,3)], \
'hsec': [2,54,0,42,60,89,0,10], 'val': [4,5,5,3,2,4,4,7]})
和
dfEq = pd.DataFrame({'Time': [dt.datetime(2013,4,17,9,0,1), \
dt.datetime(2013,4,17,9,0,1), \
dt.datetime(2013,4,17,9,0,1), \
dt.datetime(2013,4,17,9,0,2), \
dt.datetime(2013,4,17,9,0,2), \
dt.datetime(2013,4,17,9,0,3), \
dt.datetime(2013,4,17,9,0,3), \
dt.datetime(2013,4,17,9,0,3), \
dt.datetime(2013,4,17,9,0,3)], \
'price': [4,4,5,3,3,4,5,4,5], \
'flag': ['K','V','V','V','K','K','V','K','V']})
我需要为dfEq中的每一行分配一个值,该值取决于该行中的价格是否存在于' val'的值中。在dataOB中的同一时间戳。
我的第一个解决方案如下所示,并给出了我想要的结果。 ('然而'如下所示。)
dataOB.set_index('Time', inplace=True)
dfEq.set_index('Time', inplace=True)
dfEq['type'] = np.zeros(len(dfEq.index))
tmpOB = pd.DataFrame([dataOB.ix[trTime,'val'] for trTime in dfEq.index], \
index = dfEq.index)
>>> tmpOB
0 1 2 3
Time
2013-04-17 09:00:01 4 5 NaN NaN
2013-04-17 09:00:01 4 5 NaN NaN
2013-04-17 09:00:01 4 5 NaN NaN
2013-04-17 09:00:02 5 3 2 4
2013-04-17 09:00:02 5 3 2 4
2013-04-17 09:00:03 4 7 NaN NaN
2013-04-17 09:00:03 4 7 NaN NaN
2013-04-17 09:00:03 4 7 NaN NaN
2013-04-17 09:00:03 4 7 NaN NaN
[9 rows x 4 columns]
dfEq.type[tmpOB.eq(dfEq.price,axis=0).any(axis=1) & (dfEq.flag=='K')] = 'MBO'
dfEq.type[tmpOB.eq(dfEq.price,axis=0).any(axis=1) & (dfEq.flag=='V')] = 'LSO'
>>> dfEq
price flag type
Time
2013-04-17 09:00:01 4 K MBO
2013-04-17 09:00:01 4 V LSO
2013-04-17 09:00:01 5 V LSO
2013-04-17 09:00:02 3 V LSO
2013-04-17 09:00:02 3 K MBO
2013-04-17 09:00:03 4 K MBO
2013-04-17 09:00:03 5 V 0
2013-04-17 09:00:03 4 K MBO
2013-04-17 09:00:03 5 V 0
[9 rows x 3 columns]
这里的问题是我有很多这样的数据框,并且它们都相当大,因此由于列表理解,从内存和计算时间的两个方面创建tmpOB是不可行的。
我的问题是:有没有办法在不需要列表理解或循环的情况下获得相同的结果?也许有一种更直接的方法可以将每一行的价格与“val”中的同期元素进行比较。
(我也尝试使用pd.merge()(在两个数据框中设置索引之前),如
mergedDf = pd.merge(dfEq,dataOB,on='Time')
mergedDf['type'] = np.zeros(len(mergedDf.index))
mergedDf.type[(mergedDf.price==mergedDf.val) & \
(mergedDf.flag=='K')] = 'MBO'
mergedDf.type[(mergedDf.price==mergedDf.val) & \
(mergedDf.flag=='V')] = 'LSO'
但是我不知道如何再次摆脱不必要的行。)
答案 0 :(得分:0)
我发现我可以使用pandas的unstack()创建没有循环的tmpOB,这使代码更快。
首先,我必须通过Multi-index索引dataOB来获取
val
Time hsec
2013-04-17 09:00:01 0 4
1 5
2013-04-17 09:00:02 0 5
1 3
2 2
3 4
2013-04-17 09:00:03 0 4
1 7
(将'hsec'级别索引转换为此形式需要一些操作,请参阅pandas - change values of second level index to display position within first level index)
然后,通过
获得tmpOBdataOB.unstack('hsec')