应用错误收集

用逗号火花RDD分割

时间：2018-02-04 23:44:19

标签： csv apache-spark rdd

我有一个csv文件，想用spark RDD打开它

111,rock,sf,"recently,promoted"

我将其与vals = line.split(',')

分开

但这也将分裂，例如“最近，促进”。我想保持“最近，提升”，而不是拆分它。

我怎么做？

由于萨拉

这正是我正在做的事情

def createKeyValue(line):
    vals = line.split(',')
    return(vals[7])

rows = csvdata.map(createKeyValue)

0 个答案:

没有答案