小文件的多个映射器

时间:2013-01-16 20:22:35

标签: java hadoop hdfs teradata sqoop

我正在开发基于Hive的ETL应用程序。一个功能要求是我们将Hive中的一些数据导出到Teradata(这是现有的解决方案),反之亦然。我的问题与出口有关。

我正在使用带有Teradata连接器的sqoop来导出HDFS文件。有些文件虽然有一百K的记录,却相当小~7MB。所以sqoop在执行导出时只使用一个映射器(我指定了-m选项,但它不起作用)。这变得非常缓慢。

有没有办法在群集中的多个映射器中将数据划分为单个文件(小于HDFS块大小)?

(由于sqoop将映射器划分为映射器,因此导入很快,这已成为比较点,我必须使导出工作更快)

编辑: - 软件版本:
Hadoop:MapR M3 - hadoop 0.20
Sqoop:1.4.2
用于Sqoop的Teradata Connector:1.0.5

0 个答案:

没有答案