请问hadoop取代数据仓库?

时间:2014-12-19 22:13:31

标签: hadoop data-warehouse

我听说Hadoop准备取代数据仓库的报道。所以我想知道是否有成功/失败率的实际案例研究,或者是否有一些开发人员在这个项目中完成或部分工作?

随着“大数据”的出现,似乎有很多炒作,我试图从小说中找出事实。

我们正在进行大规模的数据库转换,我认为这可能是另一种解决方案。

1 个答案:

答案 0 :(得分:1)

好的,大数据创业公司有很多成功案例,特别是在AdTech,虽然它不是“替换”旧的昂贵的专有方式,但他们只是第一次使用Hadoop。我想这是一个创业公司的好处 - 没有遗留系统。从技术和数据科学的角度来看,广告虽然有点无聊,但却非常有趣。数据量巨大,挑战在于如何更有效地细分用户并为广告空间出价。这通常意味着涉及一些机器学习。

不仅仅是AdTech,Hadoop还被银行用于欺诈检测和各种其他交易分析。

所以我的两分钱为什么会发生这种情况我将尝试总结我的主要经验,即使用HDFS与Spark和Scala,以及使用SAS,R& S的传统方法。 Teradata的:

  1. HDFS是一种非常有效的方式,可以以易于访问的分布式方式存储大量数据,而无需首先构建数据的开销。
  2. HDFS不需要自定义硬件,它适用于商用硬件,因此每TB更便宜。
  3. HDFS& hadoop生态系统与动态和灵活的云架构密切相关。 Google Cloud和Amazon AWS具有丰富而廉价的功能,完全无需内部DC。没有必要购买20个强大的服务器和100个TB的存储空间来发现它是不够的,或者它太多了,或者它只需要每天1小时。使用云服务设置集群变得越来越容易,甚至还有一些脚本可以让那些只有少量sysadm / devops经验的人可以这样做。
  4. Hadoop和Spark,特别是与Scala等高级静态类型语言(但Java 8也可以)一起使用时,意味着数据科学家现在可以使用R,Python和SAS等脚本语言来做他们永远无法做到的事情。首先,他们可以在一个虚拟环境中将他们的建模代码与其他生产系统连接在一起,所有这些都是一种语言。想想用Scala编写的所有高速工具; Kafka,Akka,Spray,Spark,SparkStreaming,GraphX等,以及Java:HDFS,HBase,Cassandra - 现在所有这些工具都具有高度的互操作性。这意味着历史上第一次,数据分析师可以可靠地自动化分析并构建稳定的产品。它们具有所需的高级功能,但具有静态类型,FP和单元测试的可预测性和可靠性。尝试在Python中构建一个大型复杂的并发系统。尝试在R或SAS中编写单元测试。尝试编译你的代码,观察测试通过,并以动态类型语言结束“嘿它有效!让它发货”。
  5. 这四点结合起来意味着A:存储数据现在便宜很多,B:现在处理数据便宜很多C:人力资源成本便宜得多,因为现在你不需要几个团队孤立进入分析师,建模人员,工程师,开发人员之后,你可以将这些技能混合在一起,使混合动力车最终需要雇佣更少的人。

    事情不会在一夜之间发生变化,目前劳动力市场主要缺少两个群体;优秀的大数据DevOps和Scala工程师/开发人员,他们的费率清楚地反映了这一点。不幸的是,即使需求非常高,供应也很低。虽然我仍然认为Hadoop的仓储要便宜得多,但找到人才可能是一个很大的成本,限制了转型的步伐。