使用Dagster进行交叉验证

时间:2020-04-01 12:34:24

标签: python machine-learning architecture pipeline dagster

我已经开始在我们的ML管道中使用Dagster,并且遇到了一些基本问题,我想知道我是否在这里遗漏了一些琐碎的事情,或者这到底是怎么回事...

说我有一个简单的ML流水线:

Load raw data --> Process data into table --> Split train / test --> train model --> evaluate model.

线性模型在Dagster中很简单。但是,如果我想添加一个小循环,例如出于交叉验证的目的,该怎么办:

Load raw data --> Process data into table --> Split into k folds, and for each fold:
  - fold 1: train model --> evaluate
  - fold 2: train model --> evaluate
  - fold 3: train model --> evaluate
  --> summarize cross validation results.

在达格斯特(Dagster)是否有一种很好的方法来做到这一点?我做事的方式是:

Load raw data --> Process data into table --> Split into K folds --> choose fold k --> train model --> evaluate model

使用折叠“ k”作为管道的输入参数。然后将管道运行K次。

我在这里想念什么?

1 个答案:

答案 0 :(得分:3)

是的,Dagster确实支持在单个管道中将固体扇出成多个固体,而不是扇入到沉入式固体(即,总结结果)。这是一些示例代码以及dagit(full dagzoomed in)中的相应dag可视化。

@solid
def load_raw_data(_):
    yield Output('loaded_data')


@solid
def process_data_into_table(_, raw_data):
    yield Output(raw_data)


@solid(
    output_defs=[
        OutputDefinition(name='fold_one', dagster_type=int, is_required=True),
        OutputDefinition(name='fold_two', dagster_type=int, is_required=True),
    ],
)
def split_into_two_folds(_, table):
    yield Output(1, 'fold_one')
    yield Output(2, 'fold_two')


@solid
def train_fold(_, fold):
    yield Output('model')


@solid
def evaluate_fold(_, model):
    yield Output('compute_result')


@composite_solid
def process_fold(fold):
    return evaluate_fold(train_fold(fold))


@solid
def summarize_results(context, fold_1_result, fold_2_result):
    yield Output('summary_stats')


@pipeline
def ml_pipeline():
    fold_one, fold_two = split_into_two_folds(process_data_into_table(load_raw_data()))

    process_fold_one = process_fold.alias('process_fold_one')
    process_fold_two = process_fold.alias('process_fold_two')

    summarize_results(process_fold_one(fold_one), process_fold_two(fold_two))

在示例代码中,我们使用别名-es以便为每次折叠重复使用相同的逻辑。我们还巩固了处理复合实体中每个折痕的逻辑。

另一个选择是直接以编程方式创建PipelineDefinition,但我建议您使用上面的方法。