了解Featuretools中的PercentTrue基本输出

时间:2018-09-12 21:38:56

标签: featuretools

我一直在玩predict-appointment-noshow notebook tutorial,但对PERCENT_TRUE原语的输出感到困惑。

我的理解是,在生成特征之后,像locations.PERCENT_TRUE(appointments.sms_received)这样的列会给出sms_received为True的行的百分比,给定一个位置,该位置被定义为其自己的Entity较早。我希望该列对于单个位置的所有行都是相同的,因为这是它的条件,但是我发现情况并非如此。有什么想法吗?

以下是该笔记本数据中的一个示例,用于演示:

>>> fm.loc[fm.neighborhood == 'HORTO', 'locations.PERCENT_TRUE(appointments.sms_received)'].describe()

count 144.00
mean 0.20
std 0.09
min 0.00
25% 0.20
50% 0.23
75% 0.26
max 0.31
Name: locations.PERCENT_TRUE(appointments.sms_received), dtype: float64

即使位置仅限于'HORTO',该列的范围为0.00-0.31。如何计算?

1 个答案:

答案 0 :(得分:1)

这是在计算此特征矩阵时使用截止时间的结果。

在此示例中,我们在安排约会时为每个约会进行预测。因此,特征locations.PERCENT_TRUE(appointments.sms_received)在截止时间给定的特定时间计算。正在为每个约会计算“在scheduled_time之前收到此短信的约会所占百分比”

该构造对于防止将来的信息泄漏到该行的预测中是必要的。如果我们使用整个数据集来PERCENT_TRUE进行计算,那么我们必然会使用尚未发生的约会中的信息,这对于预测建模无效。

如果您想在所有数据都知道之后进行预测,那么您要做的就是删除cutoff_time调用中的ft.dfs参数:

fm, features = ft.dfs(entityset=es,
                      target_entity='appointments',
                      agg_primitives=['count', 'percent_true'],
                      trans_primitives=['weekend', 'weekday', 'day', 'month', 'year'],
                      max_depth=3,
                      approximate='6h',
                      # cutoff_time=cutoff_times[20000:],
                      verbose=True)

现在,当我们在特定位置进行条件处理时,您可以看到该功能相同

fm.loc[fm.neighborhood == 'HORTO', 'locations.PERCENT_TRUE(appointments.sms_received)'].describe()
count   175.00
mean      0.32
std       0.00
min       0.32
25%       0.32
50%       0.32
75%       0.32
max       0.32

您可以在documentation中了解有关Featuretools如何处理时间的更多信息。