缓存Dagster的管道结果

时间:2019-12-10 11:11:01

标签: dagster

有没有一种方法可以将固体的输出缓存在管道中,如果我运行相同的管道但配置略有不同(请考虑超参数调整),则管道中的某些初始步骤是不受配置更改影响的操作是否不会多次执行?

System Version: macOS 10.14.6

我希望能够运行一次A,但是可以运行B的多个变体。

在达格斯特(Dagster)是否有一种优雅的方法?

1 个答案:

答案 0 :(得分:1)

我不知道此功能的存在。

当将存储设置为文件系统时,Dagster可以重新运行实体,但是在缓存中没有看到任何与您描述的内容相同的东西。如果牵引力不大,可以在此处提交issue to Dagster,然后进行报告

一些可能的解决方法

  1. 也许您可以选择将数据具体化并将逻辑添加到实体中,以检查该数据是否存在于某个位置。如果是这样,则返回该数据,如果没有,则重新处理。这种模式使您负担重担,以确保仅保留所需的文件。考虑到开放式场景中潜在的可变性变化区域,这可能是最简单的选择。
  2. 我想您可以在每次实验后一起破解新的管道-仅由需要再次运行的Solids组成,并引入新的Solids,该Solids从文件中读取数据并为其他Solids输出。我想,读取数据的实体可能只是一个可重用和别名的实体。