我有sqoop stmt和10个映射器。 hadoop中的整个数据分为10个部分,每个部分超过1GB。我想把数据分成多个较小部分的文件,不用说超过10个,就像每个200MB的50个文件。但是由于DB瓶颈问题,我无法在sqoop中创建超过10个映射器。如果有任何简单的解决方案,请告诉我。
答案 0 :(得分:0)
在直接模式下有一个解决方案。
您可以使用--direct-split-size
( in Bytes )
示例:--direct-split-size 200000000
将生成大约的文件。 200 MB。
查看here了解详情。