如何安装pyspark&在有限资源的笔记本电脑上学习目的的火花?

时间:2015-10-13 18:27:21

标签: hadoop apache-spark bigdata pyspark

我有一台配备6GB内存的Windows 7笔记本电脑。什么是最有效的RAM /资源安装方式pyspark&这台笔记本电脑上的火花仅用于学习目的我不想处理实际的大数据,但小数据集是理想的,因为这只是为了学习pyspark&火花一般。我更喜欢最新版本的Spark。

仅供参考:我没有安装hadoop。

由于

2 个答案:

答案 0 :(得分:1)

您基本上有三种选择:

  • 从源代码构建所有内容
  • 安装Virtualbox并使用预先构建的VM,如Cloudera Quickstart
  • 安装Docker并找到合适的容器

当您选择从源代码构建时,将所有内容都启动并运行可能会很痛苦。你必须安装JDK,构建hadoop和spark(这两者都需要你安装额外的软件才能构建它们),设置一堆环境变量,然后祈祷没有弄乱任何东西。

虚拟机很不错,特别是来自Cloudera的虚拟机,但是你经常会遇到旧版本的Spark,而且你所描述的资源可能很紧张。

我选择Docker。

一旦安装了docker,就可以轻松尝试Spark(以及许多其他技术)。我最喜欢玩的容器使用ipython或jupyter笔记本。

安装Docker:

Jupyter Notebook Python,Spark,Mesos Stack

答案 1 :(得分:0)

要记住的一件事是,您将不得不为VM分配一定量的内存,剩余的内存仍然必须运行Windows。 Windows 7对于32位操作系统至少需要1 GB,对于64位操作系统至少需要2 GB。因此,您可能只需要大约4 GB的RAM来运行VM,这并不多。

假设您是64位,请注意Cloudera需要至少4 GB的RAM才能运行CDH 5,但如果您想运行Cloudera Express,则需要8 GB。

从Windows运行Docker将要求您使用boot2docker,它将整个VM保留在内存中。它使用最少的内存(大约27 MB)来运行,所以你应该没问题。比运行VirtualBox更好的解决方案!

另一个需要考虑的选择是在亚马逊网络服务(http://aws.amazon.com)或谷歌云(http://cloud.google.com)上启动免费计算机。特别是对于后者,您可以获得免费试用量的信用额度,您可以使用这些信用额度来启动具有比通常使用AWS更多RAM的计算机。