为什么我们需要Hadoop发行版?

时间:2017-01-04 02:26:14

标签: apache hadoop cloudera

我是Hadoop的新手。所以,请有人向我解释为什么我们需要cloudera或Hortonworks?我们可以下载每个Apache项目并使用这些库来创建大数据项目,对吗?而且,如果我已经使用Linux操作系统,我是否必须使用cloudera-quickstart vm ware?提前谢谢。

1 个答案:

答案 0 :(得分:1)

让我们用类似的比喻看看这个。

  • 假设您使用的是版本“v1”的操作系统“D”。在其中,您需要不同的库集--A,B和C.
  • A取决于B,C也取决于B.在A和C的版本中,依赖关系是C的不同版本。

现在,如果您需要所有这三个库,那么确保您使用/安装每个库以使每个库兼容并且没有冲突就变得很头疼。

另外并非所有人都是三个库以及底层系统的专家。那么,如果在您自己的工具中使用这些库时使用这些库需要进行一些优化,会发生什么?还有你在使用它们时遇到的一些问题。

这就是这些 “Stack Distributions” 的用武之地。这些供应商中的每一个都提供了一个完整的堆栈,它作为一个整体进行了测试,并且与打包的不同库兼容,而不仅仅是hadoop。这让很多人的生活更轻松。此外,根据您与供应商的计划或订阅,您可以获得支持/培训和其他辅助事项。

仅作为额外添加,请记住,开源并不一定意味着免费。(请注意,这是我个人的观点)

关于你使用linux的问题的另一部分,你需要使用任何vm ware图像左右,对于初学者或学习目的,这会让你的生活变得更加简单。