我尝试使用Dataproc群集的实例将大型CSV文件导入HDFS,然后将它们导出为SequenceFile格式,最后将最新导入Bigtable,如下所述: https://cloud.google.com/bigtable/docs/exporting-importing
我最初在Hive中将CSV文件作为外部表导入,然后通过将它们插入到SequenceFile支持的表中来导出它们。
然而(可能因为看起来dataproc附带了Hive 1.0?),我遇到了这里提到的强制转换异常错误:Bigtable import error
我似乎无法在数据交换机主VM上启动并运行HBase shell或ZooKeeper,因此我无法从CLI运行简单的导出作业。
我是否有另一种方法可以从dataproc中导出bigtable兼容的序列文件?
从Dataproc VM主节点运行HBase和ZooKeeper的正确配置是什么?
答案 0 :(得分:2)
您链接的导入说明是从现有HBase部署导入数据的说明。
如果您使用的输入格式是CSV,则创建SequenceFiles可能是不必要的步骤。如何编写Hadoop MapReduce来处理CSV文件并直接写入Cloud Bigtable?数据流也非常适合。
在这里看看样品: https://github.com/GoogleCloudPlatform/cloud-bigtable-examples/tree/master/java