可以使用哪些技术优化sqoop导入?我试图使用split by column来启用并行性,并根据表的数据量增加映射器的数量。从FIFO更改为Fair Scheduler会有帮助吗?提前谢谢!
['hostname1', 'hostname2', 'hostname3', 'hostname4' ......]
答案 0 :(得分:1)
我还没试过,但我已经读过书了 对于某些数据库,您可以使用--direct来利用直接模式 参数:
sqoop import \
--connect jdbc:mysql://mysql.example.com/sqoop \
--username sqoop \
--table cities \
--direct
希望这有助于
答案 1 :(得分:1)
以下是Sqoop的一些常见性能改进技术
NUM-映射器