我正在尝试为亚马逊数据集构建ALS推荐系统,该系统已经获得了1.4亿次评论。我正在使用pyspark建立ALS推荐系统。
ALS列车的运行时间非常慢。最初我从整个记录开始,它运行了大约8小时,之后我终止了它。为了测试,我跑了10个记录,花了大约35分钟。我无法理解为什么需要这么多时间。我在过去的两天里一直在搜索。
我正在使用Google Cloud服务。配置 - 16CPU,104内存,100GB SSD硬盘。
我正在将spark上下文配置为
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
conf = SparkConf()
conf = (conf.setMaster('local[*]')
.set('spark.executor.memory', '50G')
.set('spark.driver.memory', '30G')
.set('spark.driver.maxResultSize', '15G')
)
sc = SparkContext(conf=conf)
spark = SparkSession(sc)
我是Spark的新手,我想知道我在设置火花配置方面犯了错误,而我错误地认为我是作为独立工作而不是群集运行的?
请帮忙。