Pyspark SaveAsTextFile()和textFile()无法识别RDD元素的列表格式

时间:2019-04-30 09:26:09

标签: pyspark text-files

我有一个rdd,其元素是以下格式的列表(('string', 'string'), int)

print(my_rdd.take(1))
Out >> [((u'string_1', u'string_2'), 1)]

但是,在我进行读写之后,每个元素都被视为一个字符串:

my_rdd.saveAsTextFile('my_path')
read_rdd = sc.textFile('my_path')

print(read_rdd.take(1))

Out >> [u"((u'string_1', u'string_2'), 1)"]

最佳做法是什么?我需要改善写操作还是读操作?

1 个答案:

答案 0 :(得分:0)

通常来说,任何类型的长期存储都需要一个字符串或二进制字符串,因此这种转换为unicode字符串似乎是正常的。只需编写一个函数将其解析回所需的格式即可。