跳过标题行 - 是否可以使用Cloud DataFlow?

时间:2015-02-11 09:19:24

标签: google-cloud-dataflow

我创建了一个Pipeline,它从GCS中的文件读取,转换它,最后写入BQ表。该文件包含标题行(字段)。

有没有办法以编程方式设置"标题行数以跳过"就像装载时可以在BQ中做的那样?

number of header rows to skip

1 个答案:

答案 0 :(得分:4)

目前无法实现。听起来这里有两个潜在的请求:

  • 为BigQuery导入指定标题行的存在和跳过行为。
  • 指定GCS文本源应跳过标题行。

有关此问题的未来工作将在https://issues.apache.org/jira/browse/BEAM-123中进行跟踪。

此外,与此同时,您可以在ParDo代码中添加一个简单的过滤器来跳过标题。像这样:

PCollection<X> rows = ...;
PCollection<X> nonHeaders =
   rows.apply(Filter.by(new MatchIfNonHeader()));