Flume和sqoop限制

时间:2014-12-05 10:44:06

标签: performance sqoop flume

我在不同的机器上有一个TB的数据文件我想在集中式机器上收集它以进行一些处理是否建议使用水槽?

RDBMS中存在相同数量的数据,我想在hdfs中使用sqoop是否可以使用trasffer TB的数据?如果不是什么将是替代

1 个答案:

答案 0 :(得分:3)

强烈建议使用Sqoop将几TB的数据从RDBMS传输到HDFS是个好主意。这是Sqoop的预期用例,它确实可靠。

Flume主要用于流数据,因此如果文件都有事件,并且您经常获得新文件,那么Flume with Spooling Directory源可以正常工作。

否则,“HDFS -put”是将文件复制到HDFS的好方法。