我触及了Teradata。我从未接触过hadoop,但从昨天开始,我正在研究这个问题。通过对两者的描述,它们似乎是可以互换的,但在一些文章中写道它们用于不同的目的。但我发现的一切都是模糊的。我很困惑。
有没有人体验过这两种情况?他们之间有什么严重的区别?
简单示例:我想构建ETL,它将转换数十亿行原始数据并将它们组织成DWH。然后对它们进行一些资源昂贵的分析。为何使用TD?为何选择Hadoop?或者为什么不呢?
答案 0 :(得分:7)
我认为this article标题为“MapReduce和并行DBMS:朋友或敌人”在描述每种技术最佳工作的情况方面做得相当不错。简而言之,Hadoop非常适合存储非结构化数据和运行并行转换以“清理”传入数据,其中DBMS可以快速执行复杂查询。
答案 1 :(得分:3)
我不是这方面的专家,但是在coursera.com课程“数据科学概论”中,有一个题为“比较MapReduce和数据库”的讲座,以及关于地图内并行数据库的讲座。课程。
以下是关于MapReduce与RDBMS(不一定是并行RDMBS)比较的这些讲座的摘要。 需要记住的一点是,如果你包括像PIG,Hive等Hadoop的扩展,那么比较是不同的。我将放入()MapReduce扩展,添加一些这些功能/属性。
RDBMS具有但不是本机MapReduce的一些功能/属性:
MapReduce(相对于常规RDBMS,不一定是并行RDMBS)
答案 2 :(得分:1)
首先,Vanilla Apache Hadoop是100%开源的。但如果您需要商业支持以及咨询服务,那么有Cloudera,MapR,HortonWorks等公司。
Hadoop得到了越来越多的社区的支持,这些社区修复了错误并在一致的基础上进行了改进。 Hadoop存储模型HDFS基于Google的GFS架构,经证明可以处理大量数据。此外,Hadoop分析模型Map Reduce基于Google的Map Reduce Model。
Hadoop被Facebook,雅虎,Twitter,eBay等Tech Giants用于实时存储和分析他们的大量数据以及被动地分析他们的大量数据。
对于您的问题,ETL系统会阅读您将看到的slides。
好的,为什么选择Hadoop?
好的,为什么选择TD?
答案 3 :(得分:0)
我已经被问过几次这个问题,我通常给出的答案是汽车类比(这很愚蠢,因为我不是汽车人-但它似乎可行)
换句话说,Teradata是可靠的主力军,您可以在其中放置关键任务流程(运营报告,企业报告,决策支持等)。 Hadoop是您可以做很多事情的地方,但是如果您有一天早上来发现您的监管报告由于某人应用了补丁程序或者您突然收到了“太许多小文件”的问题。
回到这个类比,如果您不想太挑剔,并且制造商的产品(dbms和/或汽车)对您来说都是开箱即用的,那么Teradata是一个不错的选择。 另一方面,如果您想在引擎盖下进行修补,更换化油器(或其他),调整齿轮比,根据您是在国家还是城市驾驶来调整燃油空气混合物,使用涡轮增压器上的螺栓和/或您的家人抱怨您周末要在车库里待多久-Hadoop是适合您的地方。
恕我直言,大多数(如果不是全部)组织都需要两者。 我希望这会有所帮助:-)