在继续处理列之前,使用Talend Open Studio DI从唯一的第1行中提取提取值

时间:2017-03-29 14:55:36

标签: talend data-integration

我有许多excel文件,其中表格的标题行上方有一行文字(和空白行)。

处理文件的最佳方法是什么,以便我可以从该行中提取文本并在附加多个文件时将其作为列包含在内?是否可以不必处理每个文件两次?

示例

This file was created on machine A on 01/02/2013

Task|Quantity|ErrorRate

0102|4550|6 per minute
0103|4004|5 per minute

最终获得来自多个类似文件的数据

Task|Quantity|ErrorRate|Machine|Date
0102|4550|6 per minute|machine A|01/02/2013
0103|4004|5 per minute|machine A|01/02/2013
0467|1264|2 per minute|machine D|02/02/2013

1 个答案:

答案 0 :(得分:1)

我整理了一份关于如何做的小样本。我称之为原油,因为a。它不是动态的,你可以添加更多文件来处理,但你需要知道在建立你的工作之前有多少文件,以及b。它显示了基本概念,但需要更多工作来满足您的需求。例如,在我的测试文件中,我只在第一行中有“MachineA”或“MachineB”。您需要解析该数据以获取计算机名称和日期。

但是这里的样本是如何运作的。每个Excel都设置为两个输入。对于标题,tFileInput_Excel配置为仅读取第一行,而正文tFileInput_Excel配置为从第4行开始读取。

tMap中,它们被组合(未加入)到输出模式中。这是为机器完成的Excel和机器B擅长,然后那些tMapstUnite组合用于最终输出。

正如您在日志行中看到的那样,数据被合并并包含标题信息。

enter image description here