hadoop vs teradata有什么区别

时间:2013-01-31 08:59:07

标签: database hadoop teradata business-intelligence

我触及了Teradata。我从未接触过hadoop,但从昨天开始,我正在研究这个问题。通过对两者的描述,它们似乎是可以互换的,但在一些文章中写道它们用于不同的目的。但我发现的一切都是模糊的。我很困惑。

有没有人体验过这两种情况?他们之间有什么严重的区别?

简单示例:我想构建ETL,它将转换数十亿行原始数据并将它们组织成DWH。然后对它们进行一些资源昂贵的分析。为何使用TD?为何选择Hadoop?或者为什么不呢?

4 个答案:

答案 0 :(得分:7)

我认为this article标题为“MapReduce和并行DBMS:朋友或敌人”在描述每种技术最佳工作的情况方面做得相当不错。简而言之,Hadoop非常适合存储非结构化数据和运行并行转换以“清理”传入数据,其中DBMS可以快速执行复杂查询。

答案 1 :(得分:3)

Hadoop,带扩展的Hadoop,RDBMS功能/属性比较

我不是这方面的专家,但是在coursera.com课程“数据科学概论”中,有一个题为“比较MapReduce和数据库”的讲座,以及关于地图内并行数据库的讲座。课程。

以下是关于MapReduce与RDBMS(不一定是并行RDMBS)比较的这些讲座的摘要。 需要记住的一点是,如果你包括像PIG,Hive等Hadoop的扩展,那么比较是不同的。我将放入()MapReduce扩展,添加一些这些功能/属性。

RDBMS具有但不是本机MapReduce的一些功能/属性:

  • 声明性查询语言 - (Pig,HIVE)
  • 架构(Hive,Pig,DyradLINQ,Hadapt)
  • 逻辑数据独立
  • 索引(Hbase)
  • 代数优化(Pig,Dryad,HIVE)
  • 缓存/物化视图
  • ACID /事务

MapReduce(相对于常规RDBMS,不一定是并行RDMBS)

  • 高可伸缩性
  • 容错
  • “一人部署”

答案 2 :(得分:1)

首先,Vanilla Apache Hadoop是100%开源的。但如果您需要商业支持以及咨询服务,那么有Cloudera,MapR,HortonWorks等公司。

Hadoop得到了越来越多的社区的支持,这些社区修复了错误并在一致的基础上进行了改进。 Hadoop存储模型HDFS基于Google的GFS架构,经证明可以处理大量数据。此外,Hadoop分析模型Map Reduce基于Google的Map Reduce Model

Hadoop被Facebook,雅虎,Twitter,eBay等Tech Giants用于实时存储和分析他们的大量数据以及被动地分析他们的大量数据。

对于您的问题,ETL系统会阅读您将看到的slides

好的,为什么选择Hadoop?

  1. 开源
  2. 大量数据的成熟存储和分析模型
  3. 设置和运行的最低硬件要求。
  4. 好的,为什么选择TD?

    1. 商业支持

答案 3 :(得分:0)

我已经被问过几次这个问题,我通常给出的答案是汽车类比(这很愚蠢,因为我不是汽车人-但它似乎可行)

  • Teradata是大众的汽车/ dbms-它可靠,成熟,运行良好并且在您需要时就在那儿。与Hadoop相比,很难自定义产品并向其添加功能。
  • Hadoop是发烧友的汽车/ dbms-它不那么可靠或成熟,只要您参与其中,它就可以很好地工作。与Teradata相比,自定义和向基本产品添加功能很容易。

换句话说,Teradata是可靠的主力军,您可以在其中放置关键任务流程(运营报告,企业报告,决策支持等)。 Hadoop是您可以做很多事情的地方,但是如果您有一天早上来发现您的监管报告由于某人应用了补丁程序或者您突然收到了“太许多小文件”的问题。

回到这个类比,如果您不想太挑剔,并且制造商的产品(dbms和/或汽车)对您来说都是开箱即用的,那么Teradata是一个不错的选择。 另一方面,如果您想在引擎盖下进行修补,更换化油器(或其他),调整齿轮比,根据您是在国家还是城市驾驶来调整燃油空气混合物,使用涡轮增压器上的螺栓和/或您的家人抱怨您周末要在车库里待多久-Hadoop是适合您的地方。

恕我直言,大多数(如果不是全部)组织都需要两者。 我希望这会有所帮助:-)