Pentaho跳过标题,添加文件名到输出

时间:2016-10-20 11:27:27

标签: pentaho data-manipulation pentaho-spoon vcf

我需要从pentaho读取.vcf.gz文件。 我可以从“内容”选项卡设置“压缩”到“GZ”中的“文本文件输入”中读取它。

- 首先,我需要跳过标题(基本上每行#开头)。

-Second我需要插入一个新列,在每行插入文件名。

E.g。

我的档案是:

#header
#header
#header
# chr pos ref alt
  chr1 3   A   A

我想要的是:

chr1 3 A A id_001 (Taken readeing file name)

我怎样才能做到这一点?

1 个答案:

答案 0 :(得分:1)

如果您找到了“内容”标签,则必须看到“标题”复选框。您可以指定要跳过的行数。

enter image description here

对于文件名,您需要“附加输出字段”选项卡。

enter image description here

这是输出的预览:

enter image description here

如果您需要从文件名中删除文件扩展名,可以通过以下几种方法进行操作。