Question

假设我有2个数据集：splitA（控制组）和另一个数据集splitB（实现功能的治疗组）。两个数据集都包含以下列：

用户名，会议上，收入

前一年确定8月份收入为70％。在实施该功能后，如何使用此信息预测年度收入的变化？

到目前为止我的计算：

去年8月是收入的第70个百分点，所以

total_revenue_A_aug = np.sum(splitA_df.revenue)
std_a = np.std(splitA_df.revenue)

遵循标准正态分布X = mu + z * sigma ...

mean_A = total_revenue_A_aug - 0.5244*std_a

我是在正确的轨道上吗？

Answer 1

是的，你有点走上正轨，但却有很多缺失。让我们假设这些月份遵循正态分布。您可以选择不同的原则，原则仍然适用。无论如何，首先计算第一年的月平均值：

Mean_revenue_A = np.sum(splitA.revenue)/12.0 # assuming you have 12 months in both data sets

然后得到标准偏差：

std_a = np.std(splitA.revenue)

最后，获得今年第70百分位的价值：

import scipy.stats as s
# 70th percentile
percentile = s.norm(0,1).ppf(.7)
projection = Mean_revenue_A + percentile*std_a