使用Google Dataproc在Bigtable中导入CSV数据

时间:2015-09-30 14:27:22

标签: google-cloud-bigtable google-cloud-dataproc

我尝试使用Dataproc群集的实例将大型CSV文件导入HDFS,然后将它们导出为SequenceFile格式,最后将最新导入Bigtable,如下所述: https://cloud.google.com/bigtable/docs/exporting-importing

我最初在Hive中将CSV文件作为外部表导入,然后通过将它们插入到SequenceFile支持的表中来导出它们。

然而(可能因为看起来dataproc附带了Hive 1.0?),我遇到了这里提到的强制转换异常错误:Bigtable import error

我似乎无法在数据交换机主VM上启动并运行HBase shell或ZooKeeper,因此我无法从CLI运行简单的导出作业。

  1. 我是否有另一种方法可以从dataproc中导出bigtable兼容的序列文件?

  2. 从Dataproc VM主节点运行HBase和ZooKeeper的正确配置是什么?

1 个答案:

答案 0 :(得分:2)

您链接的导入说明是从现有HBase部署导入数据的说明。

如果您使用的输入格式是CSV,则创建SequenceFiles可能是不必要的步骤。如何编写Hadoop MapReduce来处理CSV文件并直接写入Cloud Bigtable?数据流也非常适合。

在这里看看样品: https://github.com/GoogleCloudPlatform/cloud-bigtable-examples/tree/master/java