我有一个数据框(df),其中包含10列公司股价与相关数据的价格。索引有许多不同的日期,但是有多个相同的日期(并按日期排序)。此外,这个问题的重要列是df ['Cond1']和df ['Cond2']和df ['返回']。
以下是仅有2个索引值(2017年1月21日和1月22日)的3列数据示例,实际上有多个日期有多个变量等等。
Name Cond1 Cond2 Returns
1/21/2017 Apple 2 4 0.052450819
1/21/2017 Blackberry 6 5 0.423446578
1/21/2017 Microsoft 3 2 0.073850562
1/21/2017 IBM 1 1 0.966576931
1/21/2017 Ubisoft 5 7 0.371786953
1/21/2017 Next 4 3 0.58357725
1/21/2017 Marks and Spencer 2 7 0.466737922
1/21/2017 Alpha 4 3 0.291305661
1/21/2017 Right move 6 2 0.206502435
1/21/2017 Topsy 7 5 0.655331635
1/21/2017 Pizza hut 4 7 0.295723144
1/21/2017 Mcdonalds 3 4 0.338535647
1/22/2017 IBM 2 3 0.975326708
1/22/2017 Next 1 5 0.70893239
1/22/2017 Alpha 1 3 0.362154048
1/22/2017 Blackberry 6 2 0.664525792
1/22/2017 Apple 6 6 0.363531989
现在我要创建两列['Returns2']和['Returns3']
如果Cond1< COND2。
返回3 =数据框中的新列,仅显示该特定公司当前1天的退货和12天的退货,如果Cond1
所以最终我希望对满足Cond1的公司连续12天回报12天
答案 0 :(得分:0)
你可以这样做:
df = df.set_index('Name', append=True).swaplevel().sort_index()
df.loc[df.Cond1< df.Cond2, 'returns2'] = True
df.returns2 = df.groupby(level=0).returns2.transform(lambda x: x.ffill(limit=12))
df.returns2 = df.returns2.mask(df.returns2.notnull(), df.Returns)
df.returns2
Name
Alpha 2017-01-21 NaN
2017-01-22 0.362154
Apple 2017-01-21 0.0524508
2017-01-22 0.363532
Blackberry 2017-01-21 NaN
2017-01-22 NaN
IBM 2017-01-21 NaN
2017-01-22 0.975327
Mcdonalds 2017-01-21 0.338536
Microsoft 2017-01-21 NaN
MnSpencer 2017-01-21 0.466738
Next 2017-01-21 NaN
2017-01-22 0.708932
Pizzahut 2017-01-21 0.295723
Rightmove 2017-01-21 NaN
Topsy 2017-01-21 NaN
Ubisoft 2017-01-21 0.371787
Name: test, dtype: object