我在将数据保留为字符串格式时遇到问题。一旦我在每一行上执行分割(x.split),数据就会转换为列表。我该怎么做才能将数据保留为字符串格式?
from pyspark import SparkContext
sc = SparkContext.getOrCreate()
document = sc.textFile("/content/sample_data/dr_csv")
print type(document)
print document.count()
document.take(5)
document.takeSample(True, 5, 3)
record = document.map(lambda x: x.split(','))
record.take(3)
答案 0 :(得分:0)
您只需拥有x的副本即可拆分它,而不会影响x,如下所示:
temp = x
record = document.map(lambda temp: temp.split(','))
答案 1 :(得分:0)
如果要获取包含列表中所有元素的字符串,可以使用.join
方法。假设您有lst = ['cat', 'dog', 'pet']
。执行" ".join(lst)
将返回一个字符串,其中lst
的所有元素之间用空格"cat dog pet"
隔开。
''.join([str(i) for i in document.map(lambda x: x.split(',')])