Question

我正在尝试为亚马逊数据集构建ALS推荐系统，该系统已经获得了1.4亿次评论。我正在使用pyspark建立ALS推荐系统。

ALS列车的运行时间非常慢。最初我从整个记录开始，它运行了大约8小时，之后我终止了它。为了测试，我跑了10个记录，花了大约35分钟。我无法理解为什么需要这么多时间。我在过去的两天里一直在搜索。

我正在使用Google Cloud服务。配置 - 16CPU，104内存，100GB SSD硬盘。

我正在将spark上下文配置为

from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
conf = SparkConf()
conf = (conf.setMaster('local[*]')
        .set('spark.executor.memory', '50G')
        .set('spark.driver.memory', '30G')
        .set('spark.driver.maxResultSize', '15G')
       )
sc   = SparkContext(conf=conf)
spark = SparkSession(sc)

我是Spark的新手，我想知道我在设置火花配置方面犯了错误，而我错误地认为我是作为独立工作而不是群集运行的？

请帮忙。

PySpark - ALS推荐太慢了

0 个答案: