如何将代码和数据集分发到工作程序节点上?

时间:2019-06-29 12:35:23

标签: scala apache-spark apache-spark-sql apache-spark-mllib

我一直在使用Movielens数据集(2000万条记录),并在Spark MLlib中使用collaborative filtering

steps of algorithm

我的环境是VirtualBox上的Ubuntu 14.4。我有一个主节点和2个从节点。我使用了发布的Apache Hadoop,Apache Spark,Scala,sbt。该代码是用Scala编写的。

如何将代码和数据集分配到工作程序节点上?

import java.lang.Math._

import org.apache.spark.ml.recommendation.ALS
import org.apache.spark.ml.recommendation.ALS.Rating
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}

object trainModel extends App {

  val conf = new SparkConf()
    .setMaster("local[*]")
    .setAppName("trainModel")
  val sc = new SparkContext(conf)

  val rawData = sc.textFile("file:///usr/local/spark/dataset/rating.csv")

  val sqlContext = new SQLContext(sc)
  val df = sqlContext
    .read
    .option("header", "true")
    .format("csv")
    .load("file:///usr/local/spark/dataset/rating.csv")

  val ratings = rawData.map(line => line.split(",").take(3) match {
    case Array(userId, movieId, rating) => 
      Rating(userId.toInt, movieId.toInt, rating.toFloat)
  })
  println(s"Number of Ratings in Movie file ${ratings.count()} \n")

  val ratingsRDD = sc.textFile("file:///usr/local/spark/dataset/rating.csv")
  //split data into test&train
  val splits = ratingsRDD.randomSplit(Array(0.8, 0.2), seed = 12345)
  val trainingRatingsRDD = splits(0).cache()
  val testRatingsRDD = splits(1).cache()
  val numTraining = trainingRatingsRDD.count()
  val numTest = testRatingsRDD.count()
  println(s"Training: $numTraining, test: $numTest.")

  val rank = 10
  val lambdas = 0.01
  val numIterations = 10
  val model = ALS.train(ratings, rank, numIterations)
  //Evaluate the model on training data
  val userProducts = ratings.map { case Rating(userId, movieId, rating) =>
    (userId, movieId)
  }
  val predictions = model.predict(userProducts).map { case
    Rating(userId, movieId, rating) =>
    ((userId, movieId), rating)
  }
  val ratesAndPreds = ratings.map { case Rating(userId, movieId, rating) =>
    ((userId, movieId),
      rating)
  }.join(predictions)
  val meanSquaredError = ratesAndPreds.map { case ((userId, movieId),
  (r1, r2)) =>
    val err = r1 - r2
    err * err
  }.mean
  println("Mean Squared Error= " + meanSquaredError)
  sqrt(meanSquaredError)
  val rmse = math.sqrt(meanSquaredError)
  println(s" RMSE = $rmse.")
}

2 个答案:

答案 0 :(得分:1)

1-最好将数据集放入分布式文件系统-Hadoop HDFS,S3等中。

2-通过spark-submit脚本分发代码,如此处https://firebase.google.com/docs/firestore/quickstart

所述

答案 1 :(得分:1)

  

如何分发代码

在您spark-submit一个Spark应用程序时会发生这种情况。可以按CPU内核/线程或执行程序进行分发。您不必编写代码。这就是人们使用Spark的原因,因为它应该(几乎)自动发生。

  

conf.setMaster(“ local [*]”)

这表示您使用的单个执行程序具有与CPU内核一样多的线程。那是本地分布。

最好从代码中删除该行,而改用spark-submit --master。阅读官方文档,尤其是。 Submitting Applications

  

...并将数据集放入工作节点?   val rawData = sc.textFile(“ file:///usr/local/spark/dataset/rating.csv”)

该行说明了Movielens数据集(rating.csv)的分布方式。与Spark无关,因为Spark使用文件系统上使用的任何分发。

换句话说,在具有256MB块大小( split )的Hadoop HDFS上,文件大小是块大小的两倍,分为两部分。这就是HDFS,可以使文件分散且具有容错能力。

Spark读取2个拆分文件时,分布式计算(使用RDD描述)将使用2个分区,因此将执行2个任务。

HDFS是文件系统/存储,因此请选择任何位置并hdfs -put数据集。将HDFS视为您可以远程访问的任何文件系统。将位置用作sc.textFile的输入参数,就可以完成。