是否有任何适用于“ Pub / Sub to Cloud Spanner”的GCP数据流模板

时间:2019-03-02 11:27:28

标签: google-cloud-dataflow google-cloud-spanner

我正在尝试查找是否有任何GCP Dataflow模板可用于通过“ Pub / Sub to Cloud Spanner”进行数据提取。我发现已经有一个默认的GCP数据流模板,该模板带有示例-“将Cloud Pub / Sub转换为BigQuery”。 因此,我很想知道我是否可以在流或批处理模式下对扳手进行数据提取,以及行为如何

2 个答案:

答案 0 :(得分:1)

有一个Dataflow模板以批处理模式导入Avro文件,您可以按照these instructions使用该模板。不幸的是,Cloud Pub / Sub流模板尚不可用。如果需要,可以file a feature request

答案 1 :(得分:0)

实际上,我尝试做一些事情,例如使用“ projects / pubsub-public-data / topics / taxirides-realtime”和“ gs:// dataflow-templates / latest / Cloud_PubSub_to_Avro”模板将示例数据文件加载到我的gcp存储中。然后,我停止了此流作业,并使用“ gs:// dataflow-templates / latest / GCS_Avro_to_Cloud_Spanner”模板创建了另一个批处理作业。但是批处理作业失败,并出现以下错误,

java.io.FileNotFoundException: No files matched spec: gs://cardataavi/archive/spanner-export.json at org.apache.beam.sdk.io.FileSystems.maybeAdjustEmptyMatchResult(FileSystems.java:166) at org.apache.beam.sdk.io.FileSystems.match(FileSystems.java:153) at org.apache.beam.sdk.io.FileIO$MatchAll$MatchFn.process(FileIO.java:636)

目前看来,扳手仅支持具有Spanner特定格式的Avro数据格式。理解正确吗?