如何在Kedro的目录中添加许多CSV文件?

时间:2020-05-06 21:05:45

标签: python kedro

我有数百个想要类似处理的CSV文件。为简单起见,我们可以假设它们全都位于./data/01_raw/中(例如./data/01_raw/1.csv./data/02_raw/2.csv),等等。我宁愿不要给每个文件起不同的名称,并在出现时分别跟踪它们建立我的管道。我想知道是否可以通过在catalog.yml文件中指定内容来批量读取所有文件?

1 个答案:

答案 0 :(得分:6)

您正在寻找PartitionedDataSet。在您的示例中,catalog.yml可能看起来像这样:

my_partitioned_dataset:
  type: "PartitionedDataSet"
  path: "data/01_raw"
  dataset: "pandas.CSVDataSet"