python - 使用外部虚拟机设置spark

我不是像这里的许多其他人一样庞大的计算机人，我主修数学与MatLab作为我的主要计算机知识。我最近通过Berkeley提供的优秀edX课程参与了Apache Spark。

他们用于设置Spark的方法是在一个很好的分步指南中提供的，它涉及：使用Ubuntu 32位VM下载Oracle VM Virtual Box，然后通过使用vagrant（再次，我不是很大）计算机 - 所以不是100％确定这是如何工作或它是什么）连接到IPython笔记本。这使我能够通过互联网访问Spark并使用pySpark在python中编码，这正是我想要做的。

在第二次实验练习之前，一切都进展顺利，很明显我的Windows笔记本电脑在尝试使用大型数据集后不断冻结和崩溃后，其可用内存不足（仅为3 Gb和4年）。

显然不可能在虚拟机中安装虚拟机，因此我今天大部分时间都在寻找设置Spark的替代方法无济于事;这些指南都针对的是拥有比我更多的计算机知识的人。

我的（可能是天真的）想法现在是租用我可以通过我的Windows笔记本电脑完全接口的外部机器，但是以便虚拟机在我的笔记本电脑的内存之外运行，即在云端（使用任何一个） Ubuntu，Windows等）。基本上我想将Oracle VM虚拟盒移动到外部源以消除我的计算机内存负担，并像以前一样使用Ipython笔记本。

如何在Ipython笔记本中设置一个虚拟机用于Spark的计算方面？

或者是否有一种易于理解的替代方法？

使用外部虚拟机设置spark

1 个答案: