Spark在运行LinearRegressionwithSGD时不使用所有核心

时间:2015-10-20 18:30:54

标签: apache-spark apache-spark-mllib

我在本地计算机上运行Spark(16G,8个CPU内核)。我试图在大小为300MB的数据集上训练线性回归模型。我检查了cpu统计信息以及运行的程序,它只执行一个线程。 文档说他们已经实现了SGD的分布式版本。 http://spark.apache.org/docs/latest/mllib-linear-methods.html#implementation-developer

from pyspark.mllib.regression import LabeledPoint, LinearRegressionWithSGD, LinearRegressionModel
from pyspark import SparkContext


def parsePoint(line):
  values = [float(x) for x in line.replace(',', ' ').split(' ')]
  return LabeledPoint(values[0], values[1:])

sc = SparkContext("local", "Linear Reg Simple")
data = sc.textFile("/home/guptap/Dropbox/spark_opt/test.txt")
data.cache()
parsedData = data.map(parsePoint)


model = LinearRegressionWithSGD.train(parsedData)

valuesAndPreds = parsedData.map(lambda p: (p.label,model.predict(p.features)))
MSE = valuesAndPreds.map(lambda (v, p): (v - p)**2).reduce(lambda x, y: x + y) / valuesAndPreds.count()
print("Mean Squared Error = " + str(MSE))


model.save(sc, "myModelPath")
sameModel = LinearRegressionModel.load(sc, "myModelPath")

1 个答案:

答案 0 :(得分:1)

我认为您要做的是明确说明要与本地上下文一起使用的核心数。正如您在评论here中看到的那样,"local"(您正在做的事情)在一个线程上实例化上下文,而"local[4]"将在4个核心上运行。我相信您也可以使用"local[*]"在您系统上的所有核心上运行。