我正在尝试从csv文件导入数据,遗憾的是,该文件包含多个数据表。实际上,它并不是一个纯粹的csv文件。
它包含带有一些元数据的头字段,然后实际的csv数据部分用:
分隔//-------------
Table <table_nr>;;;;
示例文件如下所示:
Summary;;
Reporting Date;29/05/2013;12:36:18
Report Name;xyz
Reporting Period From;20/05/2013;00:00:00
Reporting Period To;26/05/2013;23:59:59
//-------------
Table 1;;;;
header1;header2;header3;header4;header5
string_aw;0;0;0;0
string_ax;1;1;1;0
string_ay;1;2;0;1
string_az;0;0;0;0
TOTAL;2;3;1;1
//-------------
Table 2;;;
header1;header2;header3;header4
string_bv;2;2;2
string_bw;3;2;3
string_bx;1;1;1
string_by;1;1;1
string_bz;0;0;0
使用水壶处理加载此类数据的最佳方法是什么?
有没有办法将此文件拆分为标题和csv数据部分,然后将它们作为单独的输入处理?
提前感谢任何提示和提示。
最佳, 黑斯。
答案 0 :(得分:2)
我认为没有任何步骤可以真正帮助您处理这种格式的数据。在将数据导入CSV步骤之前,您可能需要进行一些预处理。不过,你仍然可以在你的工作中通过调用shell并在那里执行一个命令来完成这项工作,就像一个awk脚本将文件拆分成组件文件然后通过普通的Kettle模式加载这些文件。 / p>