我正在尝试count
使用Spark API通过mllib的FP增长生成的频繁项集。我的Spark是版本1.5.1。以下是我的代码:
#!/usr/bin/python
from pyspark.mllib.fpm import FPGrowth
from pyspark import SparkContext,SparkConf
from pyspark import HiveContext
import os
os.environ['PYSPARK_PYTHON']='/usr/bin/python'
appName = "FP_growth"
sc = SparkContext()
sql_context = HiveContext(sc)
def read_spu(prod):#prod_code):
sql = """
select
t.orderno_nosplit,
t.prod_code,
t.item_code,
sum(t.item_qty) as item_qty
from ioc_fdm.fdm_dwr_ioc_fcs_pk_spu_item_f_chain t
where t.prod_code='%s'
group by t.prod_code, t.orderno_nosplit, t.item_code """%prod
spu_result = sql_context.sql(sql)
return spu_result.cache()
if __name__ == '__main__':
spu=read_spu('6727780')
conf=0.7
trans=spu.rdd.repartition(100).map(lambda x: (x[0],x[2])).groupByKey().mapValues(list).values().cache()
model = FPGrowth.train(trans, 0.01, 100)
freq_count = model.freqItemsets().count()
print 'freq_count:',freq_count
sc.stop()
输入数据是从Hadoop读取的,数据不是很大,只有大约20000行。但是,脚本在.count
阶段的工作速度非常慢。我不知道为什么。从性能来看,似乎是因为数据偏差。但是输出数据并不大(每个任务只有大约100KB)。
群集有8个节点,320个核心和1.56 T总内存(不仅仅是一个用户)。我的spark-submit脚本是spark-submit --master yarn-cluster --executor-memory 30g --num-executors 20 --executor-cores 5 FP_growth.py
附件是运行时性能的屏幕打印:
答案 0 :(得分:0)
repartition(100)
看起来不是一个好主意,你可以检查哪些阶段占用的时间最多。由于只有20000条记录。遣返应该将它们分成每个分区中的200条记录。
如果数据量不大,则根本不需要遣返。或尝试40-60个分区(2或3)*没有执行者。