应用错误收集

时间：2017-12-22 14:46:06

标签： hadoop apache-spark cluster-computing distributed-computing

我对我的大数据类进行了测试，我必须使用“较小的”数据进行某种大数据分析。数据集。我实际上有我的东西弄清楚了。我从源代码在我的Ubuntu 16.04上以独立模式安装了Hadoop 2.8.1和Spark 2.2.0（我使用PySpark构建程序）。我自己去做我的事情真是太好了。

问题是，我的一些朋友正在努力配置所有这些，我想我自己＆＃34;为什么不与我的同学和＃34;制作我自己的小集群。所以我正在寻找建议。

我的笔记本电脑有12 GB RAM和Intel Core i5。

答案 0 :(得分：0)

如果我理解正确，你的朋友在独立模式下设置火花有困难（意味着根本没有集群，只是本地计算）。我不认为建立一个他们可以使用的集群会消除他们将面临的复杂性。或者他们是否正在尝试建立集群？因为Spark的独立模式确实不需要太多配置。

另一种方法是使用预先配置的VM，每个人都可以单独使用。由您自己准备，或者由不同的提供商提供沙箱，例如Cloudera和Hortonworks。