我有两个看起来像这样的数据集:
我想做的是过滤掉“数据”数据框中的非交易日。我假设它将每行的data.index.date与trading_days的data.index.date进行比较,然后如果匹配则返回该行。如果没有匹配,那么它不是交易日,并且不返回该行。这有效地过滤了非交易日的数据集。
但是,在这里逐行检查两个data.index.dates是否相等,使用apply()函数返回行似乎效率低 - 我觉得有一种更有效的方法来做到这一点,因为我将在180M行数据帧上执行此操作。
是否有某种“合并”或“加入”如:
data.join(trading_days)
只过滤date.index.date匹配的日期?我需要按分钟级别(如“数据”数据框中所示)完成所有操作,但只需过滤掉非交易日期。谢谢你的帮助!
更新以包含值(请告知我们是否有更好的方法来粘贴这些值):
In[5]: data.head(30).values
Out[6]:
array([[ 438.9, 438.9, 438.9, 438.9, 0. ],
[ 438.9, 438.9, 438.7, 438.7, 31. ],
[ 438.6, 438.6, 438.6, 438.6, 7. ],
[ 438.4, 438.7, 438.4, 438.4, 4. ],
[ 438.4, 438.4, 438.3, 438.3, 4. ],
[ 438.2, 438.2, 438.2, 438.2, 1. ],
[ 438.2, 438.2, 438.2, 438.2, 0. ],
[ 438.2, 438.2, 438.2, 438.2, 1. ],
[ 438.2, 438.2, 438.2, 438.2, 0. ],
[ 438.1, 438.1, 438.1, 438.1, 3. ],
[ 438. , 438. , 437.9, 438. , 6. ],
[ 438. , 438.2, 438. , 438. , 8. ],
[ 438.2, 438.2, 438.1, 438.1, 6. ],
[ 438.1, 438.1, 438.1, 438.1, 4. ],
[ 438.1, 438.1, 438.1, 438.1, 0. ],
[ 438.3, 438.3, 438.3, 438.3, 1. ],
[ 438.3, 438.3, 438.3, 438.3, 0. ],
[ 438.3, 438.3, 438.3, 438.3, 0. ],
[ 438.1, 438.1, 438.1, 438.1, 1. ],
[ 438. , 438. , 437.9, 437.9, 54. ],
[ 437.8, 437.8, 437.8, 437.8, 10. ],
[ 437.8, 437.8, 437.8, 437.8, 1. ],
[ 437.8, 437.8, 437.8, 437.8, 6. ],
[ 437.8, 437.8, 437.8, 437.8, 0. ],
[ 437.9, 438. , 437.9, 438. , 12. ],
[ 437.9, 438. , 437.9, 438. , 0. ],
[ 437.9, 438. , 437.9, 438. , 0. ],
[ 437.9, 438. , 437.9, 438. , 0. ],
[ 437.9, 437.9, 437.9, 437.9, 1. ],
[ 437.9, 437.9, 437.8, 437.8, 4. ]])
以下是时间戳:
In[10]: data.head(30).index.values
Out[11]:
array(['2005-01-02T13:59:00.000000000-0500',
'2005-01-02T14:00:00.000000000-0500',
'2005-01-02T14:01:00.000000000-0500',
'2005-01-02T14:02:00.000000000-0500',
'2005-01-02T14:03:00.000000000-0500',
'2005-01-02T14:04:00.000000000-0500',
'2005-01-02T14:05:00.000000000-0500',
'2005-01-02T14:06:00.000000000-0500',
'2005-01-02T14:07:00.000000000-0500',
'2005-01-02T14:08:00.000000000-0500',
'2005-01-02T14:09:00.000000000-0500',
'2005-01-02T14:10:00.000000000-0500',
'2005-01-02T14:11:00.000000000-0500',
'2005-01-02T14:12:00.000000000-0500',
'2005-01-02T14:13:00.000000000-0500',
'2005-01-02T14:14:00.000000000-0500',
'2005-01-02T14:15:00.000000000-0500',
'2005-01-02T14:16:00.000000000-0500',
'2005-01-02T14:17:00.000000000-0500',
'2005-01-02T14:18:00.000000000-0500',
'2005-01-02T14:19:00.000000000-0500',
'2005-01-02T14:20:00.000000000-0500',
'2005-01-02T14:21:00.000000000-0500',
'2005-01-02T14:22:00.000000000-0500',
'2005-01-02T14:23:00.000000000-0500',
'2005-01-02T14:24:00.000000000-0500',
'2005-01-02T14:25:00.000000000-0500',
'2005-01-02T14:26:00.000000000-0500',
'2005-01-02T14:27:00.000000000-0500',
'2005-01-02T14:28:00.000000000-0500'], dtype='datetime64[ns]')
而且trade_days是来自这里的read.csv:http://pastebin.com/5N01Gi5V
第二次更新:
答案 0 :(得分:1)
你走在正确的轨道上。我会在数据数据框中创建另一个列,其中包含索引中的日期时间值,但其格式与您在trading_days数据帧中使用的格式类似。所以2005-01-02 23:59:00 * 00:00成为2005-01-02
然后您可以使用合并http://pandas.pydata.org/pandas-docs/dev/generated/pandas.DataFrame.merge.html
data.merge (trading_days, how='inner', left_on='newcolumn', right_index=True)
答案 1 :(得分:1)
您可以通过以下方式进行加入:
days
添加data
列,其中包含索引的日期。pd.merge(days, data, on='days')
默认情况下,这会执行内部联接,因此只有data
中显示在days
框架中的日期的行才会显示在结果中。