使用python

时间:2019-02-11 15:27:11

标签: python pandas numpy logic data-science

我有一个基于订阅的业务数据集,如下所示:

Company    RenewalDate    Year   Month  Metrics   Sales
 ABC          201710       2017    09     ...     100,000
 DEF          201802       2017    09     ...     43,000
 GHI          201807       2017    09     ...     200,000
 ABC          201810       2017    10     ...     90,000
 DEF          201702       2017    10     ...     43,000
 GHI          201707       2017    10     ...     200,000
 ABC          201710       2017    11     ...     90,000
 DEF          201702       2017    11     ...     43,000
 GHI          201707       2017    11     ...     200,000

依此类推,大约有1万个帐户,过去5年中我每个月都有其数据使用情况。

此处续订日期表示该帐户每年续订的月份。 年份和月份表示该年和月份的汇总使用情况参数,使用情况指标由会话,内容,区域,产品等参数组成,“销售”列讨论了销售情况在续订月份时制作。

这是棘手的部分,我想每月汇总从续订日期起最近12个月的所有帐户的用户指标数据,但该数据应仅包含最近12个月的指标该帐户的最后更新日期之前。 例如,ABC的续订日期为2017-10,而假设当前日期为。因此,我想汇总ABC从2016-09到2017-09的最后12个月的指标数据,以及ABC以外的其他帐户的汇总数据,这些数据应该来自其续订日期,例如DEF应该具有2016- 01到2017-01(因为假设当前日期为2017-09,所以2018-01尚未到来),对于GHI,应该是2016-07到2017-07,依此类推。 跳到当前年份,年份和月份为2019-02,因此该月的数据应包括以下内容:

ABC should have aggregated data from 2017-10 to 2018-10
DEF should have aggregated data from 2017-02 to 2018-02 ( as we still dont have full data for Feb)
GHI should have data from 2017-07 to 2018-07

下个月:

ABC should have aggregated data from 2017-10 to 2018-10
DEF should have aggregated data from 2018-02 to 2019-02 
GHI should have data from 2017-07 to 2018-07

以此类推。

我想使这个过程自动化。如何创建一套规则,可以根据当月的月份自动生成规则。 另外,如图所示,ABC的收入从100,000减少到90,000,所以我想将这些帐户标记为“ 1”。

0 个答案:

没有答案