我创建了一个Pipeline,它从GCS中的文件读取,转换它,最后写入BQ表。该文件包含标题行(字段)。
有没有办法以编程方式设置"标题行数以跳过"就像装载时可以在BQ中做的那样?
答案 0 :(得分:4)
目前无法实现。听起来这里有两个潜在的请求:
有关此问题的未来工作将在https://issues.apache.org/jira/browse/BEAM-123中进行跟踪。
此外,与此同时,您可以在ParDo代码中添加一个简单的过滤器来跳过标题。像这样:
PCollection<X> rows = ...;
PCollection<X> nonHeaders =
rows.apply(Filter.by(new MatchIfNonHeader()));