与master =“ local”一起使用sparklyr有什么好处

时间:2018-11-30 14:57:20

标签: r sparkr sparklyr

我对“ spark”和“ sparklyr”一词完全陌生,所以我的问题可能不太好。我了解,当数据无法放入内存或RAM时,应该使用spark。如果我与master =“ local”连接,是否表示我在PC上本地工作?这有什么好处。例如。我的计算机上有16 GB的RAM,如果使用sparklyr,我可以使用超过16 GB的内存吗?

连接到服务器时:是可用于eveyone还是专用服务器的公共服务器...

1 个答案:

答案 0 :(得分:2)

您正处于local模式下,所有内容(驱动程序和工作程序)都在计算机上运行。优点仅在于测试目的/使用Spark功能。

集群

除了本地模式,您还可以连接到Spark集群:

  • 独立群集:spark://HOST:PORT
  • Mesos:mesos://HOST:PORT
  • 纱:yarn
  • Kubernetes:k8s://HOST:PORT

有关更多详细信息,请检查此doc

使用群集时,您可以受益于群集的内核和RAM执行计算(由工作人员完成)。但是,您可以决定在群集或计算机上运行驱动程序。最后一点主要取决于用法,对于交互模式(笔记本或REPL),您将需要在本地运行驱动程序。

Spark vs Sparklyr

Apache Spark是一个Scala框架。 Sparklyr是Spark的R接口(软件包),允许以方便的方式为R用户执行Spark计算(例如,使用dplyr)。使用Spark的主要优点是执行分布式计算。这意味着能够以小块分解不适合内存的大型计算,这些小块可以通过隔离CPU和内存的不同进程来执行。