pyspark懒惰评估导致的错误

时间:2019-05-16 22:04:07

标签: python apache-spark pyspark lazy-evaluation

from pyspark import SparkContext, SparkConf


conf = SparkConf().setAppName("Ark API Stats")
sc = SparkContext(conf=conf)


a = sc.parallelize([1,2,3,4,5,6,7,8,9,10])
count = [2,4]
array = [a.filter(lambda x: x < y) for  y in count]

results = sc.union(array).collect()
print(results)

以上代码将返回[1,2,3,1,2,3],而我想要的是[1,1,2,3]。 在a.filter(lambda x: x < y)中,y总是4作为count中的最后一个数字。 有什么办法吗?

0 个答案:

没有答案