Question

我在将数据保留为字符串格式时遇到问题。一旦我在每一行上执行分割（x.split），数据就会转换为列表。我该怎么做才能将数据保留为字符串格式？

    from pyspark import SparkContext
    sc = SparkContext.getOrCreate()
    document = sc.textFile("/content/sample_data/dr_csv")
    print type(document)
    print document.count()

    document.take(5)
    document.takeSample(True, 5, 3)

    record = document.map(lambda x: x.split(','))
    record.take(3)

Answer 1

您只需拥有x的副本即可拆分它，而不会影响x，如下所示：

temp = x
record = document.map(lambda temp: temp.split(','))

Answer 2

如果要获取包含列表中所有元素的字符串，可以使用.join方法。假设您有lst = ['cat', 'dog', 'pet']。执行" ".join(lst)将返回一个字符串，其中lst的所有元素之间用空格"cat dog pet"隔开。

''.join([str(i) for i in document.map(lambda x: x.split(',')])

将列表转换为字符串

2 个答案: