哪个发行版 - HDP或CDH - 我应该用于专注于Spark和安全性的免费集群部署?

时间:2015-11-02 09:44:55

标签: security hadoop apache-spark cloudera hortonworks-data-platform

我是大数据的初学者,对Quora来说这可能是个问题,但我仍然会继续拍摄。我必须建立一个实时数据流集群,严格遵守安全要求(基于角色的访问,加密传输和存储)。计划是将Apache Kafka用于将数据发送到Spark流的数据管道,我们通过它运行一些分析或可视化等等。所以我想要回答的问题是

  1. 使用像Cloudera或HortonWorks(或DIY?)这样的现有发行版来设置这样一个集群的最佳选择是什么?我希望保持开源和免费,所以不要寻找MapR。我正在寻找可以与Kafka和Spark集成的设置。
  2. 上面建议的分发的安全实现是什么(基于角色的访问,所有层的加密)
  3. 添加了安全功能的开销是多少?
  4. 如何对这样的群集进行基准测试或测试,即任何链接,教程指南和虚拟设置都可以使用?
  5. 如果我使用Cloudera Manager Express购买Cloudera的CDH 5,我将无法在集群中集成哪些功能;而不是Cloudera Manager Enterprise版本?

0 个答案:

没有答案