在谷歌数据流中读取文件时可以跳过前导行

时间:2016-07-27 17:07:14

标签: google-bigquery google-cloud-storage google-cloud-dataflow

我想在使用谷歌数据流时阅读文件时跳过前导行。最新版本中是否提供该功能? 这些文件保存在谷歌存储中。 我将把这些文件写入大查询。

bq load命令有--skip_leading_rows选项。从文件读取时,此选项会跳过前导行。

我想在谷歌数据流中使用类似的功能。 我的输入格式如下。

我希望google dataflow忽略第一行,只将其余行写入大查询

enter image description here

1 个答案:

答案 0 :(得分:2)

Dataflow / ParDo中不直接支持此功能。

您需要使用Filter.byPredicate()来实现此目标。

e.g。

PCollection<X> rows = ...;
PCollection<X> nonHeaders =
   rows.apply(Filter.by(new MatchIfNonHeader()));