PySpark - ALS推荐太慢了

时间:2018-04-21 17:03:48

标签: apache-spark time pyspark apache-spark-mllib

我正在尝试为亚马逊数据集构建ALS推荐系统,该系统已经获得了1.4亿次评论。我正在使用pyspark建立ALS推荐系统。

ALS列车的运行时间非常慢。最初我从整个记录开始,它运行了大约8小时,之后我终止了它。为了测试,我跑了10个记录,花了大约35分钟。我无法理解为什么需要这么多时间。我在过去的两天里一直在搜索。

我正在使用Google Cloud服务。配置 - 16CPU,104内存,100GB SSD硬盘。

我正在将spark上下文配置为

from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
conf = SparkConf()
conf = (conf.setMaster('local[*]')
        .set('spark.executor.memory', '50G')
        .set('spark.driver.memory', '30G')
        .set('spark.driver.maxResultSize', '15G')
       )
sc   = SparkContext(conf=conf)
spark = SparkSession(sc)

我是Spark的新手,我想知道我在设置火花配置方面犯了错误,而我错误地认为我是作为独立工作而不是群集运行的?

请帮忙。

0 个答案:

没有答案