我正在尝试查找是否有任何GCP Dataflow模板可用于通过“ Pub / Sub to Cloud Spanner”进行数据提取。我发现已经有一个默认的GCP数据流模板,该模板带有示例-“将Cloud Pub / Sub转换为BigQuery”。 因此,我很想知道我是否可以在流或批处理模式下对扳手进行数据提取,以及行为如何
答案 0 :(得分:1)
有一个Dataflow模板以批处理模式导入Avro文件,您可以按照these instructions使用该模板。不幸的是,Cloud Pub / Sub流模板尚不可用。如果需要,可以file a feature request。
答案 1 :(得分:0)
实际上,我尝试做一些事情,例如使用“ projects / pubsub-public-data / topics / taxirides-realtime”和“ gs:// dataflow-templates / latest / Cloud_PubSub_to_Avro”模板将示例数据文件加载到我的gcp存储中。然后,我停止了此流作业,并使用“ gs:// dataflow-templates / latest / GCS_Avro_to_Cloud_Spanner”模板创建了另一个批处理作业。但是批处理作业失败,并出现以下错误,
java.io.FileNotFoundException: No files matched spec: gs://cardataavi/archive/spanner-export.json
at org.apache.beam.sdk.io.FileSystems.maybeAdjustEmptyMatchResult(FileSystems.java:166)
at org.apache.beam.sdk.io.FileSystems.match(FileSystems.java:153)
at org.apache.beam.sdk.io.FileIO$MatchAll$MatchFn.process(FileIO.java:636)
目前看来,扳手仅支持具有Spanner特定格式的Avro数据格式。理解正确吗?