我正在运行拥有10个节点的cassandra集群并每天上传巨大的tsv [tab separate value]文件,现在我想将我的项目转移到google bigtable以获得更好的性能和低延迟。
我安装了google cloud big table 3节点集群,在云计算服务器[1节点]上安装hbase插件,现在不知道怎样才能开始将这些tsv文件上传到bigtable中。
下面是我的tsv格式,
col1 col2 col3 col4 col5 col6。 。
这里col1是主键,col2和col3是cassandra表中的簇键
现在我如何在bigtable中创建类似的表,以及在bigtable中上传tsv文件的方法有哪些。
答案 0 :(得分:2)
在Bigtable中,您有一个行键。该密钥用作快速查找密钥。 Bigtable根据行键以排序顺序存储所有数据。需要将Bigtable“列”添加到列族中。您可以预先配置列族,并且可以在发送突变时添加随机列/限定符。以下是更多信息:https://cloud.google.com/bigtable/docs/schema-design。
您还可以使用Google数据流导入任何类型的数据:https://cloud.google.com/bigtable/docs/dataflow-hbase。您必须编写少量Java代码,Google会创建一组计算机并在其上执行您的代码。您有一个用于查看进度和日志的UI。
Bigtable也可以通过与hbase兼容的API访问。这允许像hbase通过hadoop导入的工具开箱即用:https://cloud.google.com/bigtable/docs/exporting-importing
我的偏好是数据流。