我使用熊猫进行机器学习的特征提取。
我希望实现以下目标:考虑到我有五个顺序执行的数据处理步骤,并且执行一次,结果将自动保存。下次,如果我执行第四步,该库将自动从第三步开始。在Pandas或sklearn.pipeline.Pipeline
或其他数据处理库中自然支持这种缓存功能,而无需我们显式保存它们吗?
答案 0 :(得分:0)
MLFlow Tracking具有Dagster似乎缺少的一些不错的功能(当前git commit,ML指标等的记录)。它们还与Databricks很好地集成,可以轻松地进行集群部署。但是,他们确实缺乏构建复杂的管道的方法,而Dagster擅长于此。
有没有办法获得“世界上最好的”?也就是说,将Dagster与MLFlow集成在一起,然后使其在Databricks上运行?
还是有很好的选择?