我有点困惑。目前我应该整合我的数据仓库和 Hadoop平台。直到现在我一直在做传统的ET。现在我的问题是
1. How Hadoop will involve into this ETL process ?
2. I need to load my data into SQL server
3. How can I achieve ETL in Hadoop ?
我的HDFS保存平面文件(.csv)
任何人都可以帮助我吗? 欢迎任何想法
答案 0 :(得分:0)
在Hadoop中,您可以将DW数据作为文件存储在HDFS中。如果您希望将DW迁移到Hadoop。您可以将数据从现有DW传输到Apache Hive,这是一个基于hadoop的DW工具。您可以使用sqoop移植数据(在您的DW服务器和Hadoop服务器之间建立连接以使用sqoop)
你能提供关于你的第二点的更多细节吗?
你可以通过Pig工具在Hadoop中实现ETL。为了更多ETL目的,您可以使用Java编写自定义Pig UDF。
答案 1 :(得分:0)
Sqoop是一种非常流行的工具,用于从SQL数据库迁移到Hadoop。它确实存在风险,因为它会针对您的数据库启动MapReduce作业,如果您不小心,可能会产生大量负载。
Hadoop实际上只是一个总称,通常是指HDFS(文件系统),有时候是MapReduce,它是Hadoop的原始处理框架。
很可能您将使用Hive(用于分析HDFS中的文件的类似SQL的查询引擎)等工具来进行报告。
如果您对使用基于Web的GUI的更友好的摄取工具感兴趣,请查看StreamSets Data Collector