我的团队正在考虑导出/导入bigtable数据,但只考虑技术问题的一系列列系列(不是全部)。
这些文档似乎表明只有整个大表格才可以导出/导入。
https://cloud.google.com/bigtable/docs/exporting-sequence-files https://cloud.google.com/bigtable/docs/importing-sequence-files
我们希望避免由于其大小而导出整个bt(我们只需要备份/恢复特定的列系列)。
也许有一个简单的解决方案,我们不知道,所以我想我会在这里问。
我们想到的另一种方法是使用Dataflow扫描特定的列族,将数据转储到GCS(通过保留快照),并在需要时恢复数据。但如果我们不需要使用Dataflow,那对我们来说这将是一个更好的解决方案。
非常感谢任何帮助和建议!
答案 0 :(得分:0)
您当前可以通过命令行上的-Dhbase.mapreduce.scan.column.family=<your_family>
设置单个列系列。
我们目前正在努力改进我们的导入/导出流程。如果您愿意,可以在我们的github issues中申请增强功能,我们应该能够很快得到它。以下应该相对容易实现,但目前尚未实现:
-Dhbase.mapreduce.scan.column.families=<your families separated by commas>