我对“ spark”和“ sparklyr”一词完全陌生,所以我的问题可能不太好。我了解,当数据无法放入内存或RAM时,应该使用spark。如果我与master =“ local”连接,是否表示我在PC上本地工作?这有什么好处。例如。我的计算机上有16 GB的RAM,如果使用sparklyr,我可以使用超过16 GB的内存吗?
连接到服务器时:是可用于eveyone还是专用服务器的公共服务器...
答案 0 :(得分:2)
您正处于local
模式下,所有内容(驱动程序和工作程序)都在计算机上运行。优点仅在于测试目的/使用Spark功能。
除了本地模式,您还可以连接到Spark集群:
spark://HOST:PORT
mesos://HOST:PORT
yarn
k8s://HOST:PORT
有关更多详细信息,请检查此doc
使用群集时,您可以受益于群集的内核和RAM执行计算(由工作人员完成)。但是,您可以决定在群集或计算机上运行驱动程序。最后一点主要取决于用法,对于交互模式(笔记本或REPL),您将需要在本地运行驱动程序。
Apache Spark是一个Scala框架。 Sparklyr是Spark的R接口(软件包),允许以方便的方式为R用户执行Spark计算(例如,使用dplyr)。使用Spark的主要优点是执行分布式计算。这意味着能够以小块分解不适合内存的大型计算,这些小块可以通过隔离CPU和内存的不同进程来执行。