Question

我有一个Pandas数据框，其中包含以下列

date | months | price

我计算了一些基本的BI指标。我通过按日期对数据框进行分组并对价格求和来完成净收入：

df = df[["Date", "Price"]].groupby(df['Date'])["Price"].sum().reset_index()

现在，我想找到与净收入类似的MRR，但是如果列月数超过1个月，则价格应该被移动＆＃34;同样到了接下来的几个月。而且，按月分组，而不是按天分组。

例如，如果我在2016年1月，我有3个月的行和30美元的价格，我应该在1月份加10美元，2月加10美元，到3月加10美元。

我的第一个想法是遍历数据框，跟踪我应该＆＃34;移动＆＃34;的价格和价格。在接下来的几个月，手动创建一个新的数据帧。

但是，首先，在熊猫中有没有任何Pythonic方法可以做到这一点？

重现数据框的数据：

import pandas as pd
df = pd.DataFrame({'date': ['01-01-2016', '05-01-2016', '10-01-2016','04-02-2016'], 
                   'months': [1, 3, 1, 6],
                   'price': [40, 60, 20, 60]})

期望的结果：

Date         | MRR
January 2016 | 80
February 2016| 30
March 2016   | 10
April 2016   | 10
May 2016     | 10
June 2016    | 10
July 2016    | 10

结果计算每行的结果

January 2016 = 40 + 20 + 20 + 0
February 2016 = 0 + 20 + 0 + 10
March 2016 = 0 + 0 + 0 + 10
April 2016 = 0 + 0 + 0 + 10
May 2016 = 0 + 0 + 0 + 10
June 2016 = 0 + 0 + 0 + 10
July 2016 = 0 + 0 + 0 + 10

Answer 1

我不知道如何使用循环。但是，我可以建议一种使代码非常干净和高效的方法。

首先，让我们加载您在问题文本中提供的示例数据：

df = pd.DataFrame({'date': ['01-01-2016', '05-01-2016', '10-01-2016','04-02-2016'], 
                   'months': [1, 3, 1, 6],
                   'price': [40, 60, 20, 60]})

为了使用Panda的日期功能（例如按月分组），我们将使用date列作为索引。事实上DateTimeIndex：

df['date'] = pd.to_datetime(df['date'], format='%d-%m-%Y')
df = df.set_index('date')

现在，通过使用与您已知的resample函数类似的groupby函数，可以很容易地查看逐月摘要，但使用时间段：

df.resample('M').sum()

现在“展开”months列所在的行？ 1个多月。我的方法是为每行生成一个新的DataFrame：

dfs = []
for date, values in df.iterrows():
    months, price = values
    dfs.append(
        pd.DataFrame(
            # Compute the price for each month, and repeat this value
            data={'price': [price / months] * months},
            # The index is a date range for the requested number of months
            index=pd.date_range(date, periods=months, freq='M')
        )
    )

现在我们可以将DataFrame的列表连接起来，重新采样到几个月并取总和：

pd.concat(dfs).resample('M').sum()

输出：

            price
2016-01-31     80
2016-02-29     30
2016-03-31     30
2016-04-30     10
2016-05-31     10
2016-06-30     10
2016-07-31     10

请参阅http://pandas.pydata.org/pandas-docs/stable/timeseries.html了解熊猫可以做的所有关于时间的好事。例如，要准确生成所需的输出，您可以这样做：

output.index = output.index.strftime('%B %Y')

结果如下：

               price
January 2016      80
February 2016     30
March 2016        30
April 2016        10
May 2016          10
June 2016         10
July 2016         10

在Python Pandas数据帧中计算MRR

1 个答案: