Question

我正在处理管道，并在jupyter笔记本上进行手动测试。

这是我的情况。

我想从中拿起example_train和example_valid，所以我这样写。

context.pipeline.to_outputs("example_train", "example_valid")

并将另一条管道传递到SequencialRunner中，我得到了它们。

我还想要total_steps，所以我改变了这一行。

context.pipeline.to_outputs("example_train", "example_valid", "total_steps")

，但是结果不包含exampe_train。是的，我知道example_train不是这个修改过的管道的输出，因此它不包含。

有没有办法收集这种情况的中间数据集？

Answer 1

您可以在catalog.yml的数据目录中定义每个数据集，并定义它们的存储位置。

例如：

example_train:
  type: pandas.CSVDataSet
  filepath: data/02_intermediate/example_train.csv