Question

我有数百个想要类似处理的CSV文件。为简单起见，我们可以假设它们全都位于./data/01_raw/中（例如./data/01_raw/1.csv，./data/02_raw/2.csv），等等。我宁愿不要给每个文件起不同的名称，并在出现时分别跟踪它们建立我的管道。我想知道是否可以通过在catalog.yml文件中指定内容来批量读取所有文件？

Answer 1

您正在寻找PartitionedDataSet。在您的示例中，catalog.yml可能看起来像这样：

my_partitioned_dataset:
  type: "PartitionedDataSet"
  path: "data/01_raw"
  dataset: "pandas.CSVDataSet"

如何在Kedro的目录中添加许多CSV文件？

1 个答案: