Question

我尝试将字典键（从json.loads()）转换为map()的整数。我知道我可以用循环来做到这一点，但是我试图在功能上做到这一点，所以我可以在spark中实现它。例如：

import pyspark as ps
import json

# Uses all 4 cores on your machine
sc = ps.SparkContext('local[4]')

file_rdd = sc.textFile('data/cookie_data.txt')
kv_rdd_json = file_rdd.map(lambda x: json.loads(x))
kv_rdd2 = kv_rdd_json.map(lambda x: map(int, x.get)) # here's the issue
kv_rdd.collect()

我有另一种方法可以使用函数来完成它，但我很好奇：如何在pyspark中使用.map（以及python2，python3的奖金）？

根据评论：示例数据（明文）：

{"Jane": "2"}
{"Jane": "1"}
{"Pete": "20"}
{"Tyler": "3"}
{"Duncan": "4"}
{"Yuki": "5"}
{"Duncan": "6"}
{"Duncan": "4"}
{"Duncan": "5"}

如何将dict值转换为int的示例： Python: How to convert a list of dictionaries' values into int/float from string?

for key in mydict.keys():
    mydict[key] = int(mydict[key])

.get有点像这里：Sort a Python dictionary by value

Answer 1

dict(zip(mydict, map(int, mydict.values())))

或使用lambda：

dict(map(lambda x: (x[0], int(x[1])), mydict.items()))

如何在python中使用`map`将dict值转换为整数？

1 个答案: