我有数百个想要类似处理的CSV文件。为简单起见,我们可以假设它们全都位于./data/01_raw/
中(例如./data/01_raw/1.csv
,./data/02_raw/2.csv
),等等。我宁愿不要给每个文件起不同的名称,并在出现时分别跟踪它们建立我的管道。我想知道是否可以通过在catalog.yml
文件中指定内容来批量读取所有文件?
答案 0 :(得分:6)
您正在寻找PartitionedDataSet。在您的示例中,catalog.yml
可能看起来像这样:
my_partitioned_dataset:
type: "PartitionedDataSet"
path: "data/01_raw"
dataset: "pandas.CSVDataSet"