我有一个rdd,其元素是以下格式的列表(('string', 'string'), int)
:
print(my_rdd.take(1))
Out >> [((u'string_1', u'string_2'), 1)]
但是,在我进行读写之后,每个元素都被视为一个字符串:
my_rdd.saveAsTextFile('my_path')
read_rdd = sc.textFile('my_path')
print(read_rdd.take(1))
Out >> [u"((u'string_1', u'string_2'), 1)"]
最佳做法是什么?我需要改善写操作还是读操作?
答案 0 :(得分:0)
通常来说,任何类型的长期存储都需要一个字符串或二进制字符串,因此这种转换为unicode字符串似乎是正常的。只需编写一个函数将其解析回所需的格式即可。