我想在使用谷歌数据流时阅读文件时跳过前导行。最新版本中是否提供该功能? 这些文件保存在谷歌存储中。 我将把这些文件写入大查询。
bq load命令有--skip_leading_rows选项。从文件读取时,此选项会跳过前导行。
我想在谷歌数据流中使用类似的功能。 我的输入格式如下。
我希望google dataflow忽略第一行,只将其余行写入大查询
答案 0 :(得分:2)
Dataflow / ParDo中不直接支持此功能。
您需要使用Filter.byPredicate()
来实现此目标。
e.g。
PCollection<X> rows = ...;
PCollection<X> nonHeaders =
rows.apply(Filter.by(new MatchIfNonHeader()));