带有Hadoop ETL的数据仓库

时间:2014-03-19 06:38:47

标签: java hadoop data-warehouse

我有点困惑。目前我应该整合我的数据仓库和 Hadoop平台。直到现在我一直在做传统的ET。现在我的问题是

1. How Hadoop will involve into this ETL process ? 
2. I need to load my data into SQL server 
3. How can I achieve ETL in Hadoop ? 

我的HDFS保存平面文件(.csv)

任何人都可以帮助我吗? 欢迎任何想法

2 个答案:

答案 0 :(得分:0)

在Hadoop中,您可以将DW数据作为文件存储在HDFS中。如果您希望将DW迁移到Hadoop。您可以将数据从现有DW传输到Apache Hive,这是一个基于hadoop的DW工具。您可以使用sqoop移植数据(在您的DW服务器和Hadoop服务器之间建立连接以使用sqoop)

你能提供关于你的第二点的更多细节吗?

你可以通过Pig工具在Hadoop中实现ETL。为了更多ETL目的,您可以使用Java编写自定义Pig UDF。

答案 1 :(得分:0)

Sqoop是一种非常流行的工具,用于从SQL数据库迁移到Hadoop。它确实存在风险,因为它会针对您的数据库启动MapReduce作业,如果您不小心,可能会产生大量负载。

Hadoop实际上只是一个总称,通常是指HDFS(文件系统),有时候是MapReduce,它是Hadoop的原始处理框架。

很可能您将使用Hive(用于分析HDFS中的文件的类似SQL的查询引擎)等工具来进行报告。

如果您对使用基于Web的GUI的更友好的摄取工具感兴趣,请查看StreamSets Data Collector