我正在运行featuretools来创建新功能,并且已经从现有数据框中创建了实体集。
用于训练的数据框具有约233K记录和81列,该列分为3个实体,并作为es.dfs命令的输入参数提供,该命令在train数据集上花费约2.5个小时的执行时间,在test数据集上花费约1.5个小时的执行时间。测试数据集的大小约为120K,具有80列。
如何在减少执行时间方面提高性能?我在Kaggle内核上运行代码,而在仅运行es.dfs命令的会话的9个小时中,我损失了将近4个小时以上。
我已经在featuretools网站上引用了有关并行处理和加速代码的代码,但是当从数据帧创建实体时,如何执行该代码尚不清楚,或者可能是我不太清楚。
执行时间减少了1/4。