从包含csv值

时间:2017-02-07 03:05:27

标签: apache-spark

我的df如下:

df.show()

1,2
1,4 
1,4,5

数据框只有1列和3条记录,每条记录都有csv字符串,我想在上面的数据帧中创建以下csv字符串:

1,2,4,5

1 个答案:

答案 0 :(得分:3)

查看输出,您应该在驱动程序上收集它。为此,请使用flatMap& toLocalIterator将元素检索为列表。

以下是一个例子:

def csv2rows(x):  
    for ele in x.split(','):  
      yield ele  
df.flatMap(csv2rows).distinct().toLocalIterator()