无法在StreamSets Data Collector中从Google Cloud Platform读取数据

时间:2019-11-21 11:51:30

标签: streamsets

我正在尝试在StreamSets Data Collector中创建一个管道,以从Google Cloud Platform存储桶中读取数据,并将数据以不同的文件名加载到同一存储桶中。

存储桶中的数据文件采用JSON格式。

我在StreamSets Data Collector中使用了Google Cloud Storage的起源,并提供了以下属性:

  • 通用前缀= gs://<my-bucket-name>/<json-file-name>
  • 前缀模式= https://storage.cloud.google.com/<my-bucket-name>/<json-file-name>

有人可以纠正或提供其他选择吗?

1 个答案:

答案 0 :(得分:0)

这在Common Prefix, Prefix Pattern, and Wildcards中有记录。

  • 公用前缀是您要读取的所有文件的公用路径
  • 前缀模式包含指定要读取的文件的通配符

这些都不应该包含存储区名称(因为需要单独配置)或协议。就您而言,看起来您可以使用类似的东西:

  • 公用前缀:/
  • 前缀模式:*.json(或其他与您的文件匹配的通配符)