使用外部虚拟机设置spark

时间:2015-07-16 21:00:15

标签: python apache-spark virtual-machine ipython-notebook

我不是像这里的许多其他人一样庞大的计算机人,我主修数学与MatLab作为我的主要计算机知识。我最近通过Berkeley提供的优秀edX课程参与了Apache Spark。

他们用于设置Spark的方法是在一个很好的分步指南中提供的,它涉及:使用Ubuntu 32位VM下载Oracle VM Virtual Box,然后通过使用vagrant(再次,我不是很大)计算机 - 所以不是100%确定这是如何工作或它是什么)连接到IPython笔记本。这使我能够通过互联网访问Spark并使用pySpark在python中编码,这正是我想要做的。

在第二次实验练习之前,一切都进展顺利,很明显我的Windows笔记本电脑在尝试使用大型数据集后不断冻结和崩溃后,其可用内存不足(仅为3 Gb和4年)。

显然不可能在虚拟机中安装虚拟机,因此我今天大部分时间都在寻找设置Spark的替代方法无济于事;这些指南都针对的是拥有比我更多的计算机知识的人。

我的(可能是天真的)想法现在是租用我可以通过我的Windows笔记本电脑完全接口的外部机器,但是以便虚拟机在我的笔记本电脑的内存之外运行,即在云端(使用任何一个) Ubuntu,Windows等)。基本上我想将Oracle VM虚拟盒移动到外部源以消除我的计算机内存负担,并像以前一样使用Ipython笔记本。

如何在Ipython笔记本中设置一个虚拟机用于Spark的计算方面?

或者是否有一种易于理解的替代方法?

1 个答案:

答案 0 :(得分:1)

不要运行VM。代替:

  • 下载最新的Spark版本。 (1.4.1目前。)
  • 提取档案。
  • 运行bin/pyspark.cmd

它不是IPython Notebook,但您可以针对本地Spark实例运行Python代码。

如果你想要一个更强大的实例,在强大的远程机器上做同样的事情。例如,EC2 m4.2xlarge每小时0.5美元,8核和30 GB RAM。