缓存结果的管道

时间:2019-10-20 03:20:17

标签: python python-3.x pandas scikit-learn feature-extraction

我使用熊猫进行机器学习的特征提取。 我希望实现以下目标:考虑到我有五个顺序执行的数据处理步骤,并且执行一次,结果将自动保存。下次,如果我执行第四步,该库将自动从第三步开始。在Pandas或sklearn.pipeline.Pipeline或其他数据处理库中自然支持这种缓存功能,而无需我们显式保存它们吗?

1 个答案:

答案 0 :(得分:0)

MLFlow Tracking具有Dagster似乎缺少的一些不错的功能(当前git commit,ML指标等的记录)。它们还与Databricks很好地集成,可以轻松地进行集群部署。但是,他们确实缺乏构建复杂的管道的方法,而Dagster擅长于此。

有没有办法获得“世界上最好的”?也就是说,将Dagster与MLFlow集成在一起,然后使其在Databricks上运行?

还是有很好的选择?