我是大数据的初学者,对Quora来说这可能是个问题,但我仍然会继续拍摄。我必须建立一个实时数据流集群,严格遵守安全要求(基于角色的访问,加密传输和存储)。计划是将Apache Kafka用于将数据发送到Spark流的数据管道,我们通过它运行一些分析或可视化等等。所以我想要回答的问题是
- 使用像Cloudera或HortonWorks(或DIY?)这样的现有发行版来设置这样一个集群的最佳选择是什么?我希望保持开源和免费,所以不要寻找MapR。我正在寻找可以与Kafka和Spark集成的设置。
- 上面建议的分发的安全实现是什么(基于角色的访问,所有层的加密)
- 添加了安全功能的开销是多少?
- 如何对这样的群集进行基准测试或测试,即任何链接,教程指南和虚拟设置都可以使用?
- 如果我使用Cloudera Manager Express购买Cloudera的CDH 5,我将无法在集群中集成哪些功能;而不是Cloudera Manager Enterprise版本?
醇>