我正在尝试在MYSQL到S3中使用Sqoop(大小为500GB,大约200M行)。但是,此表没有数字的Key列。
它有一个组合的主键,有3列。我观察到sqoop无法均匀地分块数据集,因为ID在最小值和最大值之间不均匀分布。 sqoop中的Rage查询效果不佳,因为该列未编入索引。
使用sqoop或任何其他技术有更好的方法吗?
P.S。我正在尝试将数据输出为AVRO文件
答案 0 :(得分:0)
如果您的表具有多列键,则需要使用--split-by参数使用不同的列手动指定范围。 Sqoop不支持多列。