使用Pentaho从多个文件中提取数据

时间:2014-02-14 15:40:46

标签: transformation pentaho

我正在尝试创建一个转换,它将从多个文件中提取数据并上传到数据库。在数据库上,我有一个包含2个字段的表,其中包含源名称和文件路径。我需要从记录中提取文件路径,并将信息传递给提取数据并上传到结果表的步骤。我能够为单个记录执行此操作,但无法为多个记录执行此操作。有没有办法实现循环来读取记录并提取数据。

1 个答案:

答案 0 :(得分:1)

大多数基于文件的PDI输入步骤允许您“接受上一步骤中的文件名”。如果您的输入来自同一类型的文件(只是其中很多),这应该符合您的需求。

你从未说过文件是否都是同一类型或类型,所以我假设它们都是相同的类型,而且这种类型是CSV / TXT,因为这是我经验中最常见的情况

在这种情况下,添加Table input步骤并选择包含文件名的表格内容。将其连接到Text file input step,然后选中Accept filenames from previous steps复选框。然后在Step to read filenames from框中选择表格输入的名称,并在Field in the input to use as filename框中选择字段名称。

然后继续根据您的文件格式配置文本文件输入。只要所有文件都符合相同的格式,就应该这样做。

如果我的任何假设不正确,请通过评论告诉我们,我们会看到我们可以做些什么。