初始化Spark环境

Question

我对Spark很新，我开发的代码并没有像我期望的那样快。我正在以下列方式启动spark上下文

初始化Spark环境

spark_path = "C:\spark"
os.environ['SPARK_HOME'] = spark_path
os.environ['HADOOP_HOME'] = spark_path

sys.path.append(spark_path + "/bin")
sys.path.append(spark_path + "/python")
sys.path.append(spark_path + "/python/pyspark/")
sys.path.append(spark_path + "/python/lib")
sys.path.append(spark_path + "/python/lib/pyspark.zip")
sys.path.append(spark_path + "/python/lib/py4j-0.10.4-src.zip")

from pyspark import SparkContext
from pyspark import SparkConf

sc = SparkContext("local", "test")

现在我决定检查这是实现并使用

的并行度

sc.defaultParallelism
>>> 1

我的问题是三折

我没有实现并行性吗？
如果没有，那我该怎么办？
我需要为我的工作设置具体的设置，我被告知。设置为--conf spark.driver.maxResultSize=0 --conf spark.akka.frameSize=128。我怎样才能设置这个

我正在使用4核和30GB RAM的Windows服务器

Answer 1

创建上下文时，请尝试sc = SparkContext("local[*]", "test")以使用所有可用内核

在Spark中并行化

初始化Spark环境

1 个答案: