我正在阅读,阅读和阅读这项技术,但我仍然不确定这对它有什么好处。
1)它似乎不能很好地支持顺序作业,大多数工作本质上是顺序的。 - 不是说它无法工作,但让它发挥作用是非常笨拙的。
2)为什么不能通过负载均衡服务+第三方/自定义无sql解决方案来完成? NoSql解决方案,例如。 Azure表或联合数据库等提供类似HDFS的功能,而map reduce可以在服务内部完成。这将提供更好的关注分离,同时提供更好的访问,例如顺序读取和不能。是的,费用可能是一个问题,但是,如果我有一PB或两个数据通过$$$流失是我最不担心的问题。但是,这就是问题。
3)另一件烦人的事情是将代码运送到文件系统上运行本地。这对我的性能有好处,但是从代码组织/复杂性管理pov中可怕。否则ORM不会那么受欢迎,因为在UDF和存储过程中写入所有内容要快得多。我以为我们之前采取过这条路,并找出它吸了多少。
因此,为什么Hadoop如此笨重而又慢如此受欢迎 - 我不明白。
请赐教。
答案 0 :(得分:1)
代码运行的位置如何影响代码组织/管理?它是透明的;这就是重点。
当然,Hadoop的功能可以使用一系列其他技术的混合来重新创建 - M / R是一种方式,而不是堆栈。
通过各种应用程序处理作业管理。
您回答了自己关于“第三方/自定义”解决方案的问题:重点是它是一个框架,可用于消除大部分或全部非数据/应用程序特定的开发。
我从来没有遇到过“抱怨最少”的环境。
我不清楚你对它的实际反对意见。