假设我有2个数据集:splitA(控制组)和另一个数据集splitB(实现功能的治疗组)。两个数据集都包含以下列:
用户名, 会议上, 收入
前一年确定8月份收入为70%。在实施该功能后,如何使用此信息预测年度收入的变化?
到目前为止我的计算:
去年8月是收入的第70个百分点,所以
total_revenue_A_aug = np.sum(splitA_df.revenue)
std_a = np.std(splitA_df.revenue)
遵循标准正态分布X = mu + z * sigma ...
mean_A = total_revenue_A_aug - 0.5244*std_a
我是在正确的轨道上吗?
答案 0 :(得分:2)
是的,你有点走上正轨,但却有很多缺失。让我们假设这些月份遵循正态分布。您可以选择不同的原则,原则仍然适用。无论如何,首先计算第一年的月平均值:
Mean_revenue_A = np.sum(splitA.revenue)/12.0 # assuming you have 12 months in both data sets
然后得到标准偏差:
std_a = np.std(splitA.revenue)
最后,获得今年第70百分位的价值:
import scipy.stats as s
# 70th percentile
percentile = s.norm(0,1).ppf(.7)
projection = Mean_revenue_A + percentile*std_a