建议用于学习目的的小型Hadoop集群的建议

时间:2017-12-22 14:46:06

标签: hadoop apache-spark cluster-computing distributed-computing

我对我的大数据类进行了测试,我必须使用“较小的”数据进行某种大数据分析。数据集。我实际上有我的东西弄清楚了。我从源代码在我的Ubuntu 16.04上以独立模式安装了Hadoop 2.8.1和Spark 2.2.0(我使用PySpark构建程序)。我自己去做我的事情真是太好了。

问题是,我的一些朋友正在努力配置所有这些,我想我自己"为什么不与我的同学和#34;制作我自己的小集群。所以我正在寻找建议。

我的笔记本电脑有12 GB RAM和Intel Core i5。

1 个答案:

答案 0 :(得分:0)

如果我理解正确,你的朋友在独立模式下设置火花有困难(意味着根本没有集群,只是本地计算)。我不认为建立一个他们可以使用的集群会消除他们将面临的复杂性。或者他们是否正在尝试建立集群?因为Spark的独立模式确实不需要太多配置。

另一种方法是使用预先配置的VM,每个人都可以单独使用。由您自己准备,或者由不同的提供商提供沙箱,例如ClouderaHortonworks