应用错误收集

pyspark懒惰评估导致的错误

时间：2019-05-16 22:04:07

标签： python apache-spark pyspark lazy-evaluation

from pyspark import SparkContext, SparkConf


conf = SparkConf().setAppName("Ark API Stats")
sc = SparkContext(conf=conf)


a = sc.parallelize([1,2,3,4,5,6,7,8,9,10])
count = [2,4]
array = [a.filter(lambda x: x < y) for  y in count]

results = sc.union(array).collect()
print(results)

以上代码将返回[1,2,3,1,2,3]，而我想要的是[1,1,2,3]。在a.filter(lambda x: x < y)中，y总是4作为count中的最后一个数字。有什么办法吗？

0 个答案:

没有答案