在Spark中并行化

时间:2017-05-01 21:04:40

标签: apache-spark pyspark rdd

我对Spark很新,我开发的代码并没有像我期望的那样快。我正在以下列方式启动spark上下文

初始化Spark环境

spark_path = "C:\spark"
os.environ['SPARK_HOME'] = spark_path
os.environ['HADOOP_HOME'] = spark_path

sys.path.append(spark_path + "/bin")
sys.path.append(spark_path + "/python")
sys.path.append(spark_path + "/python/pyspark/")
sys.path.append(spark_path + "/python/lib")
sys.path.append(spark_path + "/python/lib/pyspark.zip")
sys.path.append(spark_path + "/python/lib/py4j-0.10.4-src.zip")

from pyspark import SparkContext
from pyspark import SparkConf

sc = SparkContext("local", "test")

现在我决定检查这是实现并使用

的并行度
sc.defaultParallelism
>>> 1

我的问题是三折

  1. 我没有实现并行性吗?
  2. 如果没有,那我该怎么办?
  3. 我需要为我的工作设置具体的设置,我被告知。设置为--conf spark.driver.maxResultSize=0 --conf spark.akka.frameSize=128。我怎样才能设置这个
  4. 我正在使用4核和30GB RAM的Windows服务器

1 个答案:

答案 0 :(得分:0)

创建上下文时,请尝试sc = SparkContext("local[*]", "test")以使用所有可用内核