我试图获得使用Apache Spark的一些经验,并且设法访问了一些我希望我可以使用它来部署一个火花群来挖掘一些数据的虚拟机。未授权部署到IAAS或PAAS
20 ubuntu 14.04 64Bit vms,6GB内存,2个vCPU,6 GB RAM,20个HDD 本地每个20 vm可以访问500 GB共享存储
更新:共享存储是从NAS设备进行的NFS安装
来自/ proc / mounts文件的详细信息
RemoteNASBox / mnt / mySharedStorage RW,relatime,VERS = 3,RSIZE = 65536,WSIZE = 65536,namlen = 255,硬,原= TCP,Timeo酒店= 600,重传= 2,仲= SYS,mountaddr = [192IPaddress] ,mountvers = 3,mountport = 1234,mountproto = udp,local_lock = none,addr = [192IPaddress] 0 0
虽然它是集群中唯一的小土豆,但我喜欢能够为基于python的数据分析设置一个火花簇(可能带有纱线或介子)。
我的问题是
20 kms的推荐配置是什么,以便我使用共享存储?