pandas_profiling花费的时间太长而无法运行

时间:2019-12-26 04:35:47

标签: pandas pandas-profiling

如果有人尝试过pandas-profiling package,请帮助我获得使它运行更快的任何见解。程序包的输出报告非常整洁且详细,但是即使使用中等大小的数据集,创建报告的时间也太长。来自Kaggle推土机数据集的大约10列和40万行花费了21分钟(非gpu)。想知道是否值得进一步调查。

df.shape
(401125, 9)


start = datetime.datetime.now()
profile = df.profile_report(title="Exploring Dataset")
profile.to_file(output_file=Path("./data_report.html"))

end = datetime.datetime.now()
print(end-start)

0:21:23.976324

1 个答案:

答案 0 :(得分:2)

根据您感兴趣的内容,可以禁用其他耗时最多的熊猫分析功能,因为它是模块化的。目前,这是加快速度以及对数据集进行采样的首选解决方案。

这里有几个相关问题:

从长远来看,我们计划允许更好的并行化和更合理的默认值: https://github.com/pandas-profiling/pandas-profiling/issues/279

编辑:

自v2.4起,存在最小模式,该模式将程序包配置为自动使用较低计算的设置:https://github.com/pandas-profiling/pandas-profiling#large-datasets