假设我在pyspark中拥有这个:
# 1 million elements in data list
data = [ { "a": 1, "b" : 1 }, { "a" : 2, "b" : 2 }, { "a" : 3, "b" : 3 }..... ]
我希望数据列表的一部分通过使用RDD来进行地图缩小:
sc = pyspark.SparkContext( master = 'spark://192.168.56.103:7077',appName = 'test' )
rdd = sc.parallelize( A_Part_Of_Data_List )
rdd.map( lambda x : DO_SOMETHING() if x['a']>100 else x )
但是当我使用sc.parallelize()
将A_Part_Of_Data_List
更改为RDD类型时,A_Part_Of_Data_List
元素的内存地址(id)也已更改。
RDD中的更改不会在原始数据中更改。
是否可以在不更改元素ID的情况下将列表类型更改为RDD类型?