我不是像这里的许多其他人一样庞大的计算机人,我主修数学与MatLab作为我的主要计算机知识。我最近通过Berkeley提供的优秀edX课程参与了Apache Spark。
他们用于设置Spark的方法是在一个很好的分步指南中提供的,它涉及:使用Ubuntu 32位VM下载Oracle VM Virtual Box,然后通过使用vagrant(再次,我不是很大)计算机 - 所以不是100%确定这是如何工作或它是什么)连接到IPython笔记本。这使我能够通过互联网访问Spark并使用pySpark在python中编码,这正是我想要做的。
在第二次实验练习之前,一切都进展顺利,很明显我的Windows笔记本电脑在尝试使用大型数据集后不断冻结和崩溃后,其可用内存不足(仅为3 Gb和4年)。
显然不可能在虚拟机中安装虚拟机,因此我今天大部分时间都在寻找设置Spark的替代方法无济于事;这些指南都针对的是拥有比我更多的计算机知识的人。
我的(可能是天真的)想法现在是租用我可以通过我的Windows笔记本电脑完全接口的外部机器,但是以便虚拟机在我的笔记本电脑的内存之外运行,即在云端(使用任何一个) Ubuntu,Windows等)。基本上我想将Oracle VM虚拟盒移动到外部源以消除我的计算机内存负担,并像以前一样使用Ipython笔记本。
如何在Ipython笔记本中设置一个虚拟机用于Spark的计算方面?
或者是否有一种易于理解的替代方法?
答案 0 :(得分:1)
不要运行VM。代替:
bin/pyspark.cmd
。它不是IPython Notebook,但您可以针对本地Spark实例运行Python代码。
如果你想要一个更强大的实例,在强大的远程机器上做同样的事情。例如,EC2 m4.2xlarge
每小时0.5美元,8核和30 GB RAM。