hadoop堆栈是否支持分析大动态数据?

时间:2014-04-02 14:49:24

标签: hadoop hive sqoop

我已经完成了几天关于如何将数据加载到配置单元的教程。人们谈论

CREATE EXTERNAL TABLE

从外部源加载数据。此源始终是静态文件:.txt,.csv等...

我想知道hive是否也支持外部MS-SQL表(动态数据)?或者,我是否必须执行以下操作...将SQL表中的所有数据提取到* .csv然后使用此静态文件在HIVE中进行分析?

对于包含数百万行的表,如果必须重复进行,则此导出很麻烦。如果支持,我该如何完成此任务?

更新
Sqoop有Incremental Imports,可以使用当前的MS-SQL数据更新HADOOP:

  

Sqoop提供了一种可用于增量导入的模式   只检索比以前导入的一组行更新的行。

现在我需要弄清楚如何以自动方式运行它。

1 个答案:

答案 0 :(得分:1)

我非常确定您要使用的工具是Sqoop

引用Sqoop主页:

  

Apache Sqoop(TM)是一种工具,用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据。