将GCP资产库存加载到BigTable的最佳方法

时间:2019-05-20 18:18:47

标签: google-cloud-platform google-cloud-storage bigtable

资产清单以JSON格式导出到Cloud Storage。我想将这些数据加载到BigTable中,但是我不确定最好的方法是什么。

我认为管道的外观类似于Cloud Storage> ETL到CSV /序列文件>使用DataFlow加载到BigTable中。

将JSON Cloud Storage数据加载到BigTable有哪些选项?

1 个答案:

答案 0 :(得分:0)

由于JSON和Bigtable是如此灵活且无定形,因此两者之间没有预先打包的转换。 Google提供了所有内容,但是您必须编写一些代码将它们粘合在一起。专门将JSON文档映射到Bigtable的列和行必须从头开始。

  • 使用云资产客户端[1]将资产导出到GCS。

  • 取决于出口量

    • 创建一个使用TextIO读取导出内容的数据流作业
    • 或直接使用Cloud Storage Client [2]
  • 使用您喜欢的JSON库解析每一行

  • 将每个JSON对象转换为Bigtable突变

  • 使用数据流BigtableIO [3]接收器或Bigtable客户端[4]将数据写入Bigtable

[1] https://cloud.google.com/resource-manager/docs/cloud-asset-inventory/libraries [2] https://cloud.google.com/storage/docs/reference/libraries [3] https://beam.apache.org/releases/javadoc/2.12.0/org/apache/beam/sdk/io/gcp/bigtable/BigtableIO.html [4] https://cloud.google.com/bigtable/docs/reference/libraries