将Pyspark更改列表更改为RDD类型,而不更改ID

时间:2020-06-29 03:06:42

标签: python apache-spark pyspark

假设我在pyspark中拥有这个:

# 1 million elements in data list
data = [ { "a": 1, "b" : 1 }, { "a" : 2, "b" : 2 }, { "a" : 3, "b" : 3 }..... ]

我希望数据列表的一部分通过使用RDD来进行地图缩小:

sc = pyspark.SparkContext(  master = 'spark://192.168.56.103:7077',appName = 'test' )
rdd = sc.parallelize( A_Part_Of_Data_List )
rdd.map( lambda x : DO_SOMETHING() if x['a']>100 else x )

但是当我使用sc.parallelize()A_Part_Of_Data_List更改为RDD类型时,A_Part_Of_Data_List元素的内存地址(id)也已更改。

RDD中的更改不会在原始数据中更改。

是否可以在不更改元素ID的情况下将列表类型更改为RDD类型?

0 个答案:

没有答案