我的数据框中填充了从交易策略中获得的交易。需要更新交易策略中的逻辑,以确保如果策略已经在交易中,则不会进行交易 - 但这是一个不同的问题。许多先前交易的交易数据从csv文件读入数据框。
这是我的数据问题: 我需要对数据帧进行逐行比较,以确定rowX的Entrydate是否小于ExitDate rowX-1。
我的数据样本:
Row 1:
EntryDate ExitDate
2012-07-25 2012-07-27
Row 2:
EntryDate ExitDate
2012-07-26 2012-07-29
第2行需要删除,因为它是不应该发生的交易。
我无法确定哪些行是重复的,然后删除它们。我试着运行approach in answer 3 of this question,但这并不理想,因为我必须手动迭代数据帧并读取每一行的数据。我目前的方法是在下面,并且可能是丑陋的。我检查日期,然后将它们添加到新的数据帧。此外,这种方法在最终数据帧中给出了多个重复项。
for i in range(0,len(df)+1):
if i+1 == len(df): break #to keep from going past last row
ExitDate = df['ExitDate'].irow(i)
EntryNextTrade = df['EntryDate'].irow(i+1)
if EntryNextTrade>ExitDate:
line={'EntryDate':EntryDate,'ExitDate':ExitDate}
df_trades=df_trades.append(line,ignore_index=True)
关于如何更有效地实现这一目标的任何想法或想法?
如果您想尝试重现我的实际数据帧,可以click here查看我的数据样本。
答案 0 :(得分:11)
您应该使用某种布尔掩码来执行此类操作。
一种方法是为下一笔交易创建一个虚拟列:
df['EntryNextTrade'] = df['EntryDate'].shift()
使用它来创建遮罩:
msk = df['EntryNextTrade'] > df'[ExitDate']
使用loc查看msk为True的subDataFrame,并且只查看指定的列:
df.loc[msk, ['EntryDate', 'ExitDate']]