我对Spark很新,我开发的代码并没有像我期望的那样快。我正在以下列方式启动spark上下文
spark_path = "C:\spark"
os.environ['SPARK_HOME'] = spark_path
os.environ['HADOOP_HOME'] = spark_path
sys.path.append(spark_path + "/bin")
sys.path.append(spark_path + "/python")
sys.path.append(spark_path + "/python/pyspark/")
sys.path.append(spark_path + "/python/lib")
sys.path.append(spark_path + "/python/lib/pyspark.zip")
sys.path.append(spark_path + "/python/lib/py4j-0.10.4-src.zip")
from pyspark import SparkContext
from pyspark import SparkConf
sc = SparkContext("local", "test")
现在我决定检查这是实现并使用
的并行度sc.defaultParallelism
>>> 1
我的问题是三折
--conf spark.driver.maxResultSize=0 --conf spark.akka.frameSize=128
。我怎样才能设置这个我正在使用4核和30GB RAM的Windows服务器
答案 0 :(得分:0)
创建上下文时,请尝试sc = SparkContext("local[*]", "test")
以使用所有可用内核