Kedro:如何将目录中的多个相同数据作为节点输入传递?

时间:2019-11-19 09:52:29

标签: python kedro

我有一个目录,其中包含多个用于相同数据格式的文件(每天1个文件)。就像将一个数据分割成多个文件一样。

是否可以在不指定每个文件的情况下将所有文件传递到Kedro节点?因此,它们都是根据跑步者顺序地或并行地处理的吗?

1 个答案:

答案 0 :(得分:0)

  1. 如果文件数量少且固定,则可以考虑为每个文件手动创建预处理管道。
  2. 如果文件数量大/动态,则可以通过编程方式为每个文件创建管道定义,然后将它们全部添加在一起。同样可能适用于以编程方式创建所需数据集。
  3. 另一种选择是在第一个节点中一次读取所有文件,将它们全部连接成一个数据集,并使所有连续的preproc节点都使用该数据集(或其派生词)作为输入