我想知道在计算特征时是否有一种方法可以自动选择过去的数据量。
例如,我可能想预测客户何时进行下一次购买,因此最好了解不同日期截止的购买次数或平均购买价格。例如最近12个月,过去3个月,7天之内的购买次数。
使用Featuretools解决此问题的最佳方法是什么?
答案 0 :(得分:1)
您可以使用featuretools.dfs
中的training window参数创建仅使用一定数量历史数据的特征矩阵。设置训练窗口后,Featuretools将使用cutoff time
和cutoff_time - training_window
之间的历史数据。这是文档中的示例:
window_fm, window_features = ft.dfs(entityset=es,
target_entity="customers",
cutoff_time=cutoff_times,
cutoff_time_in_index=True,
training_window="1 hour")
在确定哪些数据有效使用时,训练窗口将检查time_index
列中的时间是否在训练窗口内。