应用错误收集

时间：2015-09-30 14:27:22

标签： google-cloud-bigtable google-cloud-dataproc

我尝试使用Dataproc群集的实例将大型CSV文件导入HDFS，然后将它们导出为SequenceFile格式，最后将最新导入Bigtable，如下所述： https://cloud.google.com/bigtable/docs/exporting-importing

我最初在Hive中将CSV文件作为外部表导入，然后通过将它们插入到SequenceFile支持的表中来导出它们。

然而（可能因为看起来dataproc附带了Hive 1.0？），我遇到了这里提到的强制转换异常错误：Bigtable import error

我似乎无法在数据交换机主VM上启动并运行HBase shell或ZooKeeper，因此我无法从CLI运行简单的导出作业。

答案 0 :(得分：2)

您链接的导入说明是从现有HBase部署导入数据的说明。

如果您使用的输入格式是CSV，则创建SequenceFiles可能是不必要的步骤。如何编写Hadoop MapReduce来处理CSV文件并直接写入Cloud Bigtable？数据流也非常适合。