我有一台配备6GB内存的Windows 7笔记本电脑。什么是最有效的RAM /资源安装方式pyspark&这台笔记本电脑上的火花仅用于学习目的我不想处理实际的大数据,但小数据集是理想的,因为这只是为了学习pyspark&火花一般。我更喜欢最新版本的Spark。
仅供参考:我没有安装hadoop。
由于
答案 0 :(得分:1)
您基本上有三种选择:
当您选择从源代码构建时,将所有内容都启动并运行可能会很痛苦。你必须安装JDK,构建hadoop和spark(这两者都需要你安装额外的软件才能构建它们),设置一堆环境变量,然后祈祷没有弄乱任何东西。
虚拟机很不错,特别是来自Cloudera的虚拟机,但是你经常会遇到旧版本的Spark,而且你所描述的资源可能很紧张。
我选择Docker。
一旦安装了docker,就可以轻松尝试Spark(以及许多其他技术)。我最喜欢玩的容器使用ipython或jupyter笔记本。
安装Docker:
Jupyter Notebook Python,Spark,Mesos Stack
答案 1 :(得分:0)
要记住的一件事是,您将不得不为VM分配一定量的内存,剩余的内存仍然必须运行Windows。 Windows 7对于32位操作系统至少需要1 GB,对于64位操作系统至少需要2 GB。因此,您可能只需要大约4 GB的RAM来运行VM,这并不多。
假设您是64位,请注意Cloudera需要至少4 GB的RAM才能运行CDH 5,但如果您想运行Cloudera Express,则需要8 GB。
从Windows运行Docker将要求您使用boot2docker,它将整个VM保留在内存中。它使用最少的内存(大约27 MB)来运行,所以你应该没问题。比运行VirtualBox更好的解决方案!
另一个需要考虑的选择是在亚马逊网络服务(http://aws.amazon.com)或谷歌云(http://cloud.google.com)上启动免费计算机。特别是对于后者,您可以获得免费试用量的信用额度,您可以使用这些信用额度来启动具有比通常使用AWS更多RAM的计算机。